Как получить КИРИЛИЧЕСКИЙ текст в python3 из PDF?

Question

domanskiy @domanskiy

Python
PDF

Как получить КИРИЛИЧЕСКИЙ текст в python3 из PDF?

Не получается добиться нормального экспорта текста из PDF
Пользую библиотеку PyPDF2
С английским текстом проблем нет.
Но кириллица...
Получается так:

˛˚˛
ˇ˛˝ˇ©˚ˇ˘˛™‰˚˘”˛˙˛˚˛‘˙˘˛ˆ˚‡
˛à˛‰
’˙˛”˛˚˚˘”Ł˛
˛˚‰
˛˚˚ˇ˛‰•˘˛ˇ˛’˚‰‰˘•˛˛˚ˇ˛ˇ‰•Ł˛˘›
˛
Ł˛¨˘˚˛
˛ﬂ˛
˛–˛
˛ﬂ•˛

Сам код чтения:

from PyPDF2 import PdfFileReader

pdf_file = 'test.pdf'

pl = open(pdf_file, 'rb')
plread = PdfFileReader(pl)
getpage37 = plread.getPage(37)
text37 = getpage37.extractText()

print(text37.encode('utf-8').decode('utf-8'))

Пробовал разные кодировки

Вопрос задан более трёх лет назад
1892 просмотра

4 комментария

Подписаться 1 Простой 4 комментария

Adamos @Adamos

Для начала - выкинуть encode-decode и посмотреть, что за текст библиотека реально выжала из файла.

Написано более трёх лет назад
domanskiy @domanskiy Автор вопроса

Изначально пробовал без encode-decode
Сделал еще один простой файл тестовый PDF.
Результат:
TESTTEST˜˚˛˜
А должно быть TEST TEST ТЕСТ

Написано более трёх лет назад
Adamos @Adamos

domanskiy, как - сделал? это сделанное - такое же, как то, что надо разбирать?
В PDF кодировка текста зависит от использованного шрифта. Криво локализованный шрифт может выдавать вот такие кракозябры вечно.

Написано более трёх лет назад
U235U235 @U235U235

С чего в решили, что в этом pdf вообще есть кирилический текст. Если взять картинку с кирилицей, из нее сделать pdf с ocr, при этом язык ocr не выбрать, то получим что-то похожее.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

domanskiy @domanskiy Автор вопроса

Может текст был в "кривые" переведён? Тогда только распознованием.
Бывает, PDF для экономии места, содержит не всю таблицу шрифта, а только те символы, которые используются. Это может вызвать некоторые проблемы, но решается через Акробат Про.

Написано более трёх лет назад
Coder 1448 @wows15

domanskiy, формат пдф это и есть рисунок, просто картинка, это не текст.

Написано более трёх лет назад
domanskiy @domanskiy Автор вопроса

Coder 1448, Тут вы совсем не правы. Поверьте, я с PDF файлами работаю 20+ лет... Кручусь в полиграфии.
текст может быть как набором векторных элементов, так и набором символов шрифтов (хз как правильно выразиться...ну типа как в ворде)
Вектор и текст можно сравнить как JPG и word файлы. В обоих мы например видим текст.... но есть разница

Написано более трёх лет назад
Coder 1448 @wows15

domanskiy, Не знал... можете посоветовать библиотеки с которыми можно работать как с текстом?

Написано более трёх лет назад
domanskiy @domanskiy Автор вопроса

Coder 1448, проблема в том, что если открыть pdf в кореле или иллюстраторе, то в случае если текст является текстом, то каждая строка часто бывает отдельным объектом.
Если текст "переведён в кривые", то тут поможет только распознование текста (экспорт в JPG и файнридер)

Короче... просто взять и внести правки не получится даже в этом случае

А так.
PDF может содержать скрипты, анимацию, аудио... 3Д объекты и т.д. Есть интерактивные PDF книги и журналы.
Я как-то менсхелз покупал в электронном виде т.к. там были видеовставки с упражнениями. Электронная версия журнала стоила дороже печатного

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 73 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 241 просмотр
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 231 просмотр
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 634 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 558 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 339 просмотров
1

ответ
Показать ещё Загружается…

Для начала - выкинуть encode-decode и посмотреть, что за текст библиотека реально выжала из файла.
Изначально пробовал без encode-decode
Сделал еще один простой файл тестовый PDF.
Результат:
TESTTEST˜˚˛˜
А должно быть TEST TEST ТЕСТ
domanskiy, как - сделал? это сделанное - такое же, как то, что надо разбирать?
В PDF кодировка текста зависит от использованного шрифта. Криво локализованный шрифт может выдавать вот такие кракозябры вечно.
С чего в решили, что в этом pdf вообще есть кирилический текст. Если взять картинку с кирилицей, из нее сделать pdf с ocr, при этом язык ocr не выбрать, то получим что-то похожее.

Answer 1 · 2021-06-28 16:45:09

Попробуй pdfplumber, я с ним работал без проблем.

with pdfplumber.PDF(srcfile) as pdf:
	pages = [page.extract_text() for page in pdf.pages]
text = '\n'.join(pages)

Answer 2 · 2021-06-29 14:09:44

Была такая задача. Спарсить pdf. Все библиотеки перепробовал - ничего не работало. Шрифт какой был в документе тоже не знал. Страницы были очень сложные по строению.

В итоге использовал pytesseract и opencv. Не идеально, не быстро, но работало.

Как получить КИРИЛИЧЕСКИЙ текст в python3 из PDF?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт