Как можно адекватно извлекать все таблицы (в csv или в excel) из pdf файла?

Question

stepan-neretin7 @stepan-neretin7

Как можно адекватно извлекать все таблицы (в csv или в excel) из pdf файла?

Попробовал tabula, camelot
Они крайне посредственно это делают, может кто сталкивался с моей задачей
Посоветуйте инструмент
руки не предлагать :D
Файлов очень много и они большущие
Вот пример файла, который хочется перевести тык

Вопрос задан более трёх лет назад
155 просмотров

1 комментарий

Подписаться 3 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

stepan-neretin7 @stepan-neretin7 Автор вопроса

проблема в том, что в одном документе может быть много разных таблиц, которые должны быть от друг-друга отделены

Написано более трёх лет назад
Adamos @Adamos

stepan-neretin7, если они на разных страницах, то теми же регулярками можно поймать строки "куча пробелов и одинокая цифра" (номер страницы).
Чудес не будет.

Написано более трёх лет назад
stepan-neretin7 @stepan-neretin7 Автор вопроса

Adamos, можно твой контакт как-то получить?Хочется пару вопросиков лично задать

Написано более трёх лет назад
Adamos @Adamos

stepan-neretin7, меня пугает перспектива, что человек с такой грамматикой узнает мою почту, но она таки есть в моем профиле.

Написано более трёх лет назад
Пычев Анатолий @pton

Я использовал похожую библиотеку pdftotext. Она бесплатна.
Но проблема разбора текста остается.
Если таблицы имеют одинаковый формат, то это еще можно автоматизировать используя регулярку.
Но, если таблицы разные, тогда будет тяжело.

Написано более трёх лет назад
Adamos @Adamos

Пычев Анатолий, по образцу - там россыпь разных таблиц. Без постановки задачи гадать смысла не вижу.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программное обеспечение и интернет-сервисы

Средний
Более лучшие альтернативы в ограничении действий пользователю?
- 2 подписчика
- 21 час назад
- 208 просмотров
5

ответов
Excel

+1 ещё

Простой
Как в VBA открыть книгу EXCEL полностью скрытно от пользователя?
- 1 подписчик
- вчера
- 82 просмотра
1

ответ
Excel

Простой
Почему в Excel 2016 не сохраняет введенные данные?
- 2 подписчика
- 28 нояб.
- 184 просмотра
2

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб.
- 379 просмотров
3

ответа
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Как убрать артефакты на скриншотах в ShareX?
- 1 подписчик
- 21 нояб.
- 66 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Как проверить битые ссылки на YouTube канале?
- 1 подписчик
- 19 нояб.
- 115 просмотров
1

ответ
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 421 просмотр
4

ответа
Excel

+2 ещё

Простой
Как в Excel 2016 быстро, по всем ячейкам дописать нужные строки?
- 3 подписчика
- 14 нояб.
- 212 просмотров
4

ответа
Железо

+1 ещё

Простой
Как установить NZXT cam?
- 1 подписчик
- 12 нояб.
- 282 просмотра
1

ответ
Excel

Простой
Почему не работают ссылки Excel в Р7-Офис?
- 2 подписчика
- 11 нояб.
- 178 просмотров
0

ответов
Показать ещё Загружается…

IT-архитектор

АВ Софт • Москва

от 300 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Senior DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

ABBYY FineReader, в ней есть 2 режима распознавания областей блоками - текст и таблица. Выгрузку можно осуществлять в т.ч. в excel

Answer 1 · 2020-03-28 22:46:06

ps2txt спокойно выдирает из этого файла текст с кучей пробелов.
Проходишься по нему регуляркой, заменяя "больше одного пробела" на табулятор, например.
Открываешь в офисе, который спрашивает, какие в файле разделители (LibreOffice, например).

Как можно адекватно извлекать все таблицы (в csv или в excel) из pdf файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт