@kr_ilya

Чем распарсить pdf?

Есть необходимость парсить данные из pdf документа. Сам документ состоит из таблицы с тремя колонками, перед таблицей немного ненужного текста. По сути нужна только таблица. Она на несколько страниц. В таблице по мимо текстовой информации есть гиперссылки, которые тоже нужно спарсить.

Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими? Я думал на json. Но не знаю в верном направлении ли я смотрю.

Язык программирования не важен. Лишь бы была библиотека, которая может это реализовать.
  • Вопрос задан
  • 1950 просмотров
Пригласить эксперта
Ответы на вопрос 3
saboteur_kiev
@saboteur_kiev
software engineer
какое отношение json имеет к парсингу?
pdf вещь такая, что там таблица может быть и картинкой, и тогда только распознавать.
Ответ написан
phaggi
@phaggi
лужу, паяю, ЭВМы починяю
Если pdf - не картинка, если в открытом adobe reader-ом файле pdf можно выделить и скопировать текст, то для того, чтобы вытащить оттуда таблицу, надо открыть pdf при помощи word. Затем из Word таблицу можно копипастить в excel.
Соответственно, автоматизировать этот процесс проще на основе MS office и VBA.
Ответ написан
Комментировать
@12rbah
Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими?
- если нужно извлекать отдельную таблицу, вроде только свой парсер писать (или на фриланс сходить), если просто извлечь весь текст, то popler-utils (можно постранично извлекать) использовать и потом уже парсите извлеченный текст, только нужно будет определить где начало таблицы где конец.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы