@domanskiy

Как получить КИРИЛИЧЕСКИЙ текст в python3 из PDF?

Не получается добиться нормального экспорта текста из PDF
Пользую библиотеку PyPDF2
С английским текстом проблем нет.
Но кириллица...
Получается так:
˛˚˛
ˇ˛˝ˇ©˚ˇ˘˛™‰˚˘”˛˙˛˚˛‘˙˘˛ˆ˚‡
˛à˛‰
’˙˛”˛˚˚˘”Ł˛
˛˚‰
˛˚˚ˇ˛‰•˘˛ˇ˛’˚‰‰˘•˛˛˚ˇ˛ˇ‰•Ł˛˘›
˛
Ł˛¨˘˚˛
˛fl˛
˛–˛
˛fl•˛


Сам код чтения:
from PyPDF2 import PdfFileReader

pdf_file = 'test.pdf'

pl = open(pdf_file, 'rb')
plread = PdfFileReader(pl)
getpage37 = plread.getPage(37)
text37 = getpage37.extractText()

print(text37.encode('utf-8').decode('utf-8'))


Пробовал разные кодировки
  • Вопрос задан
  • 1456 просмотров
Решения вопроса 1
Vindicar
@Vindicar
RTFM!
Попробуй pdfplumber, я с ним работал без проблем.
with pdfplumber.PDF(srcfile) as pdf:
	pages = [page.extract_text() for page in pdf.pages]
text = '\n'.join(pages)
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@wows15
В автоматизации сила, брат
Была такая задача. Спарсить pdf. Все библиотеки перепробовал - ничего не работало. Шрифт какой был в документе тоже не знал. Страницы были очень сложные по строению.

В итоге использовал pytesseract и opencv. Не идеально, не быстро, но работало.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы