@kablihin

Почему портиться текст из pdf при его конвертации?

Использую библиотеку PyPDF2. Написал простой конвертер из pdf просто в текст, который дальше мне необходимо обработать, но в тексте некоторые слова разделены пробелами, хотя в файле этих пробелов нет. Не понимаю почему...
Код метода
def converterPDFtoTXT(path):

    pdffileobj = open(path, 'rb')
    pdfreader = PyPDF2.PdfFileReader(pdffileobj)
    x = pdfreader.numPages
    text = ''
    for i in range(x):
        pageobj = pdfreader.getPage(i)
        text += pageobj.extractText()
    pdffileobj.close()
   
    return text

Результат
Парад оксальная природа конфиденциальности

Оригинал
63982f959a431265849300.png
  • Вопрос задан
  • 123 просмотра
Пригласить эксперта
Ответы на вопрос 1
leahch
@leahch
3D специалист. Dолго, Dорого, Dерьмово.
Тут это... Формат PDF не совсем про текст, а про препринт!
Другими словами, сам формат хотя и содержит текст, но в нем абсолютно отсутствует разметка в виде структурного разделения фрагментов на параграфы, главы и прочие мелочи жизни. А присутствует только абсолютное или относительное позиционирование блока с атрибутами трансформации и стилями фонтов. (ну и еще всякая шелуха типа оформления и примитивов и шаблонных блоков).
Более того, один и тот же видимый фрагмент может быть представлен в виде абсолютно несвязанных последовательных блоков. В результате на печати и экране текст видится нормально, а при копировании получается каша из отдельных слов.

Как пример, в начале 2000-х некоторые производители так защищали документацию от копирования.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы