Как достать кириллицу из RTF файла через python или linux?

Question

Александр @AlexMine

Учусь

Python
Linux

Как достать кириллицу из RTF файла через python или linux?

Добрый вечер, пытаюсь вытащить русский текст из rtf файла, пытаюсь выполнить из консоли утилиту unrtf

def rtf_file_to_text(path: str) -> str:
    """
        Возвращает текст из rtf документа
    """

    cmd = ['unrtf', path]
    p = Popen(cmd, stdout=PIPE)
    stdout, stderr = p.communicate()
    text = stdout.decode('utf-8')
    return text

Получаю текст

<b><font face="Times New Roman"><font size="4">&#1054;&#1073;&#1086;&#1089;&#1085;&#1086;&#1074;&#1072;&#1085;&#1080;&#1077; &#1085;&#1072;&#1095;&#1072;&#1083;&#1100;&#1085;&#1086;&#1081; (&#1084;&#1072;&#1082;&#1089;&#1080;&#1084;&#1072;&#1083;&#1100;&#1085;&#1086;&#1081;) &#1094;&#1077;&#1085;&#1099; </font></font></b>&#1082;&#1086;&#1085;&#1090;&#1088;&#1072;&#1082;&#1090;&#1072;

Все символы такие. Как вытащить символы в нужной для меня кодировке? Пытался использовать различные библиотеки на python, но они дают такой же результат. Может быть есть какая-то другая утилита для linux, с помощью которой можно вытащить текст?

Вопрос задан более трёх лет назад
1055 просмотров

1 комментарий

Подписаться 2 Простой 1 комментарий

SVM @sotvm
это и есть русский написанный символами HTML-кода в utf-8
видимо у тебя документ сохранён не в той кодировке,либо ты пытаешься его открыть в другой
браузер легко читает
 Обоснование начальной (максимальной) цены контракта
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Почему переодически появляется сообщение в браузере « Прокси-сервер отказывается принимать соединения»?
- 1 подписчик
- 22 часа назад
- 117 просмотров
2

ответа
Linux

+3 ещё

Средний
Каскадный VPN Vless+Realty — почему отваливается SSH?
- 3 подписчика
- 29 апр.
- 880 просмотров
1

ответ
Linux

+1 ещё

Средний
Как запретить пользователю авторизацию через одноименного системного пользователя?
- 3 подписчика
- 29 апр.
- 280 просмотров
1

ответ
Linux

+1 ещё

Средний
Как добавить в cryptsetup поддержку опции tpm-with-pin в ubuntu 24.04.4?
- 1 подписчик
- 19 апр.
- 124 просмотра
1

ответ
Linux

Средний
Как отладить зависание RK3568 U-boot на Starting kernel?
- 2 подписчика
- 16 апр.
- 115 просмотров
0

ответов
Linux

+2 ещё

Простой
Как исправить интерфейс wireshark?
- 1 подписчик
- 15 апр.
- 248 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 236 просмотров
2

ответа
Linux

Простой
На сервере stderr перенаправляется в /dev/null после любой команды. Как решить проблему?
- 2 подписчика
- 10 апр.
- 274 просмотра
2

ответа
Linux

+1 ещё

Простой
Почему появляется ошибка при подключении к базе данных?
- 1 подписчик
- 10 апр.
- 213 просмотров
3

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 255 просмотров
2

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

это и есть русский написанный символами HTML-кода в utf-8
видимо у тебя документ сохранён не в той кодировке,либо ты пытаешься его открыть в другой
браузер легко читает
 Обоснование начальной (максимальной) цены контракта

Answer 1 · 2022-06-02 18:02:10

Я очень долго гуглил этот вопрос. И ничего не помогало.
Суть в том, что напрямую RTF в текст на Linux в python'е перевести нельзя.
Точнее можно, если он содержит только английский текст.
А вот с русским большие проблемы. Но есть лайф-хак.
Как я уже сказал, если попробовать

import textract
import pypandoc

pathname = '<path to file>'
text1 = textract.process(pathname).decode('utf-8')
text2 = pypandoc.convert_file(pathname, 'plain')

то text 1 будет содержать некоторую служебную информацию из файла,
а text2 -- различные вариации кривых символов вместо нужных.

С pandoc всё глухо -- он вещь в себе.
А вот textract работает через unrtf, который в последних версиях (я пробовал на 0.21.10) умеет в кириллицу. Но с оговорками: если попробовать конвертировать сразу в текст, вы получите пустоту. Нужно сначала конвертировать в html:

import pypandoc
import textract
import os

pathname = '<path to file>'
os.system(f'unrtf --html {pathname} > {pathname}.html')
pathname += '.html'
text1 = text = textract.process(pathname).decode('utf-8')
text2 = pypandoc.convert_file(pathname, 'plain')

Вот теперь всё правильно. Одно плохо: нельзя всё сделать, оставаясь только в python'е.
Приходится вызывать shell. Но зато в текущей рабочей директории будут появляться вложенные картинки в формате имён pict[NNN].[ext]. Дело в том, что unrtf выводит текст или html в стандартный вывод, а файлы, соответственно в текущую директорию.
Параметра с выводом файла у него нет.

Главной загадкой в этом вопросе для меня остаётся, почему
unrtf --html file.rtf > file.html
получает текст, а
unrtf --text file.rtf > file.txt
нет.

Но решение всё равно остаётся кросс-платформенным и компактным (чего не скажешь о варианте с lowriter из Libre Office), так как в pip есть и textract и unrtf (для установки которого на windows вам потребуется 2015 студия на win7, либо свежая на win10...).

Answer 2 · 2020-01-25 17:06:32

Нашел решение на этот вопрос, думаю это одно из нормальных решений в моем случае. Установил libreoffice на сервер, с помощью

import os

os.system('lowriter --headless --convert-to txt file.rtf")

Сконвертировал в txt файл, и уже из этого файла взял текст полностью.

Answer 3 · 2020-01-24 05:58:26

Мне кажется должно быть наверное как-то возможно так:

try:
     # Python 2.6-2.7 
     from HTMLParser import HTMLParser
except ImportError:
     # Python 3+
     from html.parser import HTMLParser
h = HTMLParser()
return h.unescape(text)

P.S. Просто я в Python-е ни-в-зуб-ногой.

Как достать кириллицу из RTF файла через python или linux?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт