Есть необходимость парсить данные из pdf документа. Сам документ состоит из таблицы с тремя колонками, перед таблицей немного ненужного текста. По сути нужна только таблица. Она на несколько страниц. В таблице по мимо текстовой информации есть гиперссылки, которые тоже нужно спарсить.
Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими? Я думал на json. Но не знаю в верном направлении ли я смотрю.
Язык программирования не важен. Лишь бы была библиотека, которая может это реализовать.
Если pdf - не картинка, если в открытом adobe reader-ом файле pdf можно выделить и скопировать текст, то для того, чтобы вытащить оттуда таблицу, надо открыть pdf при помощи word. Затем из Word таблицу можно копипастить в excel.
Соответственно, автоматизировать этот процесс проще на основе MS office и VBA.
Чем можно эффективно выдернут все данные из этой таблицы, чтобы в последствии с простотой оперировать ими?
- если нужно извлекать отдельную таблицу, вроде только свой парсер писать (или на фриланс сходить), если просто извлечь весь текст, то popler-utils (можно постранично извлекать) использовать и потом уже парсите извлеченный текст, только нужно будет определить где начало таблицы где конец.