Как получить КИРИЛИЧЕСКИЙ текст в python3 из PDF?

Question

domanskiy @domanskiy

Python
PDF

Как получить КИРИЛИЧЕСКИЙ текст в python3 из PDF?

Не получается добиться нормального экспорта текста из PDF
Пользую библиотеку PyPDF2
С английским текстом проблем нет.
Но кириллица...
Получается так:

˛˚˛
ˇ˛˝ˇ©˚ˇ˘˛™‰˚˘”˛˙˛˚˛‘˙˘˛ˆ˚‡
˛à˛‰
’˙˛”˛˚˚˘”Ł˛
˛˚‰
˛˚˚ˇ˛‰•˘˛ˇ˛’˚‰‰˘•˛˛˚ˇ˛ˇ‰•Ł˛˘›
˛
Ł˛¨˘˚˛
˛ﬂ˛
˛–˛
˛ﬂ•˛

Сам код чтения:

from PyPDF2 import PdfFileReader

pdf_file = 'test.pdf'

pl = open(pdf_file, 'rb')
plread = PdfFileReader(pl)
getpage37 = plread.getPage(37)
text37 = getpage37.extractText()

print(text37.encode('utf-8').decode('utf-8'))

Пробовал разные кодировки

Вопрос задан более двух лет назад
1459 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Adamos @Adamos

Для начала - выкинуть encode-decode и посмотреть, что за текст библиотека реально выжала из файла.

Написано более двух лет назад
domanskiy @domanskiy Автор вопроса

Изначально пробовал без encode-decode
Сделал еще один простой файл тестовый PDF.
Результат:
TESTTEST˜˚˛˜
А должно быть TEST TEST ТЕСТ

Написано более двух лет назад
Adamos @Adamos

domanskiy, как - сделал? это сделанное - такое же, как то, что надо разбирать?
В PDF кодировка текста зависит от использованного шрифта. Криво локализованный шрифт может выдавать вот такие кракозябры вечно.

Написано более двух лет назад
U235U235 @U235U235

С чего в решили, что в этом pdf вообще есть кирилический текст. Если взять картинку с кирилицей, из нее сделать pdf с ocr, при этом язык ocr не выбрать, то получим что-то похожее.

Написано более двух лет назад

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

domanskiy @domanskiy Автор вопроса

Может текст был в "кривые" переведён? Тогда только распознованием.
Бывает, PDF для экономии места, содержит не всю таблицу шрифта, а только те символы, которые используются. Это может вызвать некоторые проблемы, но решается через Акробат Про.

Написано более двух лет назад
Coder 1448 @wows15

domanskiy, формат пдф это и есть рисунок, просто картинка, это не текст.

Написано более двух лет назад
domanskiy @domanskiy Автор вопроса

Coder 1448, Тут вы совсем не правы. Поверьте, я с PDF файлами работаю 20+ лет... Кручусь в полиграфии.
текст может быть как набором векторных элементов, так и набором символов шрифтов (хз как правильно выразиться...ну типа как в ворде)
Вектор и текст можно сравнить как JPG и word файлы. В обоих мы например видим текст.... но есть разница

Написано более двух лет назад
Coder 1448 @wows15

domanskiy, Не знал... можете посоветовать библиотеки с которыми можно работать как с текстом?

Написано более двух лет назад
domanskiy @domanskiy Автор вопроса

Coder 1448, проблема в том, что если открыть pdf в кореле или иллюстраторе, то в случае если текст является текстом, то каждая строка часто бывает отдельным объектом.
Если текст "переведён в кривые", то тут поможет только распознование текста (экспорт в JPG и файнридер)

Короче... просто взять и внести правки не получится даже в этом случае

А так.
PDF может содержать скрипты, анимацию, аудио... 3Д объекты и т.д. Есть интерактивные PDF книги и журналы.
Я как-то менсхелз покупал в электронном виде т.к. там были видеовставки с упражнениями. Электронная версия журнала стоила дороже печатного

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить имена параметров, которые будут переданы при нажатии на кнопку «зарегистрироваться»?
- 1 подписчик
- 2 часа назад
- 21 просмотр
1

ответ
Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- 5 часов назад
- 67 просмотров
1

ответ
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 7 часов назад
- 27 просмотров
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- 7 часов назад
- 70 просмотров
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 9 часов назад
- 175 просмотров
1

ответ
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- вчера
- 78 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 61 просмотр
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 78 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- вчера
- 106 просмотров
3

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- вчера
- 74 просмотра
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Для начала - выкинуть encode-decode и посмотреть, что за текст библиотека реально выжала из файла.
Изначально пробовал без encode-decode
Сделал еще один простой файл тестовый PDF.
Результат:
TESTTEST˜˚˛˜
А должно быть TEST TEST ТЕСТ
domanskiy, как - сделал? это сделанное - такое же, как то, что надо разбирать?
В PDF кодировка текста зависит от использованного шрифта. Криво локализованный шрифт может выдавать вот такие кракозябры вечно.
С чего в решили, что в этом pdf вообще есть кирилический текст. Если взять картинку с кирилицей, из нее сделать pdf с ocr, при этом язык ocr не выбрать, то получим что-то похожее.

Answer 1 · 2021-06-28 16:45:09

Попробуй pdfplumber, я с ним работал без проблем.

with pdfplumber.PDF(srcfile) as pdf:
	pages = [page.extract_text() for page in pdf.pages]
text = '\n'.join(pages)

Answer 2 · 2021-06-29 14:09:44

Была такая задача. Спарсить pdf. Все библиотеки перепробовал - ничего не работало. Шрифт какой был в документе тоже не знал. Страницы были очень сложные по строению.

В итоге использовал pytesseract и opencv. Не идеально, не быстро, но работало.

Как получить КИРИЛИЧЕСКИЙ текст в python3 из PDF?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт