@pavelzabavin

Как преобразовывать PDF в Excel?

Всем привет!

Есть задача: необходимо в автоматическом (фоновом) режиме производить конвертацию PDF-файлов в формат Excel в конкретной папке. Операционная система — Windows 10.

Какие идеи проходят у вас? Может быть есть софт, который максимально корректно всё преобразует (важно, чтобы в автоматическом режиме работало). Буду рад оптимальным вариантам. Заранее спасибо!
  • Вопрос задан
  • 126 просмотров
Пригласить эксперта
Ответы на вопрос 3
Adamos
@Adamos
Идея такая: проследить, откуда берутся эти PDF, и получить там более вменяемый исходник. Это перспективно, в отличие от любых костылей, которые вам удастся нагородить для решения задачи в том виде, как она поставлена сейчас.
Ответ написан
Комментировать
Stalker_RED
@Stalker_RED
В общем случае никак, кроме OCR.
Консольне OCR вполне себе существуют, у файнридера вот есть модуль заточенный на PDF
https://pdf.abbyy.com/how-to/convert-compare-pdfs-...

В некоторых распознавалках можно шаблоны создать, которые позволят распознать не что-попало, а как-то осмысленно разбить PDF на поля. https://help.parseur.com/en/articles/5796344-creat...

Если опишете задачу подробнее может еще что-то подскажу, я с этой напастью довольно долго возился и довел до того, что успешно распознавалось около 80% плетежек.

Вам сильно повезло, если все ваши PDF-ки однотипные, из одного источника, и среди них не попадаются экземпляры типа "распечатали, отсканировали, переслали как PDF".
Ответ написан
dimonchik2013
@dimonchik2013
non progredi est regredi
ну "в папке" тут самое легкое
если в PDF не картинки, то ищите библиотеки https://pypi.org/project/tabula-py/ или софт поверх них
либо внешний сервис https://pdftables.com/ с платным или условно бесплатным API
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы