Использую библиотеку PyPDF2. Написал простой конвертер из pdf просто в текст, который дальше мне необходимо обработать, но в тексте некоторые слова разделены пробелами, хотя в файле этих пробелов нет. Не понимаю почему...
Код метода
def converterPDFtoTXT(path):
pdffileobj = open(path, 'rb')
pdfreader = PyPDF2.PdfFileReader(pdffileobj)
x = pdfreader.numPages
text = ''
for i in range(x):
pageobj = pdfreader.getPage(i)
text += pageobj.extractText()
pdffileobj.close()
return text
Результат
Парад оксальная природа конфиденциальности
Оригинал