Не получается добиться нормального экспорта текста из PDF
Пользую библиотеку PyPDF2
С английским текстом проблем нет.
Но кириллица...
Получается так:
˛˚˛
ˇ˛˝ˇ©˚ˇ˘˛™‰˚˘”˛˙˛˚˛‘˙˘˛ˆ˚‡
˛à˛‰
’˙˛”˛˚˚˘”Ł˛
˛˚‰
˛˚˚ˇ˛‰•˘˛ˇ˛’˚‰‰˘•˛˛˚ˇ˛ˇ‰•Ł˛˘›
˛
Ł˛¨˘˚˛
˛fl˛
˛–˛
˛fl•˛
Сам код чтения:
from PyPDF2 import PdfFileReader
pdf_file = 'test.pdf'
pl = open(pdf_file, 'rb')
plread = PdfFileReader(pl)
getpage37 = plread.getPage(37)
text37 = getpage37.extractText()
print(text37.encode('utf-8').decode('utf-8'))
Пробовал разные кодировки