Почему портиться текст из pdf при его конвертации?

Question

kablihin @kablihin

Python

Почему портиться текст из pdf при его конвертации?

Использую библиотеку PyPDF2. Написал простой конвертер из pdf просто в текст, который дальше мне необходимо обработать, но в тексте некоторые слова разделены пробелами, хотя в файле этих пробелов нет. Не понимаю почему...
Код метода

def converterPDFtoTXT(path):

    pdffileobj = open(path, 'rb')
    pdfreader = PyPDF2.PdfFileReader(pdffileobj)
    x = pdfreader.numPages
    text = ''
    for i in range(x):
        pageobj = pdfreader.getPage(i)
        text += pageobj.extractText()
    pdffileobj.close()
   
    return text

Результат

Парад оксальная природа конфиденциальности

Оригинал

Вопрос задан более трёх лет назад
186 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Алан Гибизов @phaggi Куратор тега Python

Видимо, так криво сделан pdf. Там могут быть спецсимволы, которые по сути пробелы, но нулевой видимой длины.

Написано более трёх лет назад
kablihin @kablihin Автор вопроса

Алан Гибизов, нет, это мой pdf файл, там нет никакого символа

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

kablihin, это вы так думаете, что нет. Мы же не знаем, как конвертер работает и что туда пихает? Его задача сделать файл корректным при печати, остальные вопросы вне его компетенции. И как он внутри файла разместил данные - его внутренний вопрос.

Написано более трёх лет назад
Viktor T2 @Viktor_T2

Простой путь:
возьмите poppler pdftotext вместо PyPDF - он сильно лучше конвертит pdf в текст
сборка для винды - https://github.com/oschwartz10612/poppler-windows
Сложный путь:
pdfminer позволяет накрутить параметры LAParams https://pdfminersix-readthedocs-io.translate.goog/...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 21 час назад
- 93 просмотра
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 91 просмотр
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 102 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 344 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 668 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 569 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Видимо, так криво сделан pdf. Там могут быть спецсимволы, которые по сути пробелы, но нулевой видимой длины.
Алан Гибизов, нет, это мой pdf файл, там нет никакого символа
kablihin, это вы так думаете, что нет. Мы же не знаем, как конвертер работает и что туда пихает? Его задача сделать файл корректным при печати, остальные вопросы вне его компетенции. И как он внутри файла разместил данные - его внутренний вопрос.
Простой путь:
возьмите poppler pdftotext вместо PyPDF - он сильно лучше конвертит pdf в текст
сборка для винды - https://github.com/oschwartz10612/poppler-windows
Сложный путь:
pdfminer позволяет накрутить параметры LAParams https://pdfminersix-readthedocs-io.translate.goog/...

Answer 1 · 2022-12-13 11:14:32

Тут это... Формат PDF не совсем про текст, а про препринт!
Другими словами, сам формат хотя и содержит текст, но в нем абсолютно отсутствует разметка в виде структурного разделения фрагментов на параграфы, главы и прочие мелочи жизни. А присутствует только абсолютное или относительное позиционирование блока с атрибутами трансформации и стилями фонтов. (ну и еще всякая шелуха типа оформления и примитивов и шаблонных блоков).
Более того, один и тот же видимый фрагмент может быть представлен в виде абсолютно несвязанных последовательных блоков. В результате на печати и экране текст видится нормально, а при копировании получается каша из отдельных слов.

Как пример, в начале 2000-х некоторые производители так защищали документацию от копирования.

Почему портиться текст из pdf при его конвертации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт