Как прочитать файлы с кириллицей/разными символами?

Question

Ася @asyaevloeva

Python

Как прочитать файлы с кириллицей/разными символами?

если пытаюсь сразу прочитать docx файл

f = open("11.docx", "r", encoding='utf-8')
print(f.read())

то при чтении выпадает такая ошибка:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb4 in position 14: invalid start byte

если пытаюсь сначала переконвертить в txt а потом прочитать,

import docx2txt
import codecs

my_text = docx2txt.process("11.docx")

with codecs.open(my_text, encoding='utf-8') as fin:
    line = next(fin)
    print(type(line))

то такая:

OSError: [Errno 63] File name too long: 'АБВГД 1234567.1234567\n\nБла\n\nблаблабла\n\n\n\n\n\nКакой-то текст тут\n\n...

Вопрос задан более трёх лет назад
209 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 184 просмотра
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 231 просмотр
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 151 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 125 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2021-06-03 14:58:12

1. Вот что ты ожидал получить, открыв docx просто через open()? Разумеется, ты получаешь содержимое файла... содержимое, а не текст. Потому что docx - это на самом деле zip архив с пачкой xml файлов внутри. Из них можно выколупать текст самостоятельно, но это муторно.

2. Это уже ближе, но серьёзно, включи мозги - у тебя предполагаемое имя файла содержит то, что выглядит как текст документа. Т.е. судя по всему, функция docx2txt.process() возвращает текст документа как есть, строкой. А ты действуешь как будто она пишет его в файл и возвращает имя этого файла. Наверняка в документации к этому модулю её поведение описывается.

Как прочитать файлы с кириллицей/разными символами?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт