@kr_ilya

Чем распарсить pdf?

Есть необходимость парсить данные из pdf документа. Сам документ состоит из таблицы с тремя колонками, перед таблицей немного ненужного текста. По сути нужна только таблица. Она на несколько страниц. В таблице по мимо текстовой информации есть гиперссылки, которые тоже нужно спарсить.

Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими? Я думал на json. Но не знаю в верном направлении ли я смотрю.

Язык программирования не важен. Лишь бы была библиотека, которая может это реализовать.
  • Вопрос задан
  • 1965 просмотров
Пригласить эксперта
Ответы на вопрос 3
saboteur_kiev
@saboteur_kiev
software engineer
какое отношение json имеет к парсингу?
pdf вещь такая, что там таблица может быть и картинкой, и тогда только распознавать.
Ответ написан
phaggi
@phaggi
лужу, паяю, ЭВМы починяю
Если pdf - не картинка, если в открытом adobe reader-ом файле pdf можно выделить и скопировать текст, то для того, чтобы вытащить оттуда таблицу, надо открыть pdf при помощи word. Затем из Word таблицу можно копипастить в excel.
Соответственно, автоматизировать этот процесс проще на основе MS office и VBA.
Ответ написан
Комментировать
@12rbah
Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими?
- если нужно извлекать отдельную таблицу, вроде только свой парсер писать (или на фриланс сходить), если просто извлечь весь текст, то popler-utils (можно постранично извлекать) использовать и потом уже парсите извлеченный текст, только нужно будет определить где начало таблицы где конец.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы