Как можно адекватно извлекать все таблицы (в csv или в excel) из pdf файла?
Попробовал tabula, camelot
Они крайне посредственно это делают, может кто сталкивался с моей задачей
Посоветуйте инструмент
руки не предлагать :D
Файлов очень много и они большущие
Вот пример файла, который хочется перевести тык
ps2txt спокойно выдирает из этого файла текст с кучей пробелов.
Проходишься по нему регуляркой, заменяя "больше одного пробела" на табулятор, например.
Открываешь в офисе, который спрашивает, какие в файле разделители (LibreOffice, например).
stepan-neretin7, если они на разных страницах, то теми же регулярками можно поймать строки "куча пробелов и одинокая цифра" (номер страницы).
Чудес не будет.
Я использовал похожую библиотеку pdftotext. Она бесплатна.
Но проблема разбора текста остается.
Если таблицы имеют одинаковый формат, то это еще можно автоматизировать используя регулярку.
Но, если таблицы разные, тогда будет тяжело.