@Safronov_Alexei

Как брать определенные данные из PDF документа?

Привет Хабр!
Столкнулся с проблемой, писал функцию, которая берет нужные мне данные из PDF файла и передает их в бд.
Делал это через конвертациб PDF -> Word | RTF и после чего, WORD | RTF -> TXT => И там находил слова, которые стоят рядом с данными и брал данные, ну то есть, допустим в пдфе была строка "Facility Coca-Cola", я искал Facility и брал рядом стощее слово. Но в один момент понял, что рядом стоящие слова, прыгают то выше, то ниже и с точностью их не получается отследить. Какие могут быть варианты решения?
  • Вопрос задан
  • 110 просмотров
Пригласить эксперта
Ответы на вопрос 1
leahch
@leahch
3D специалист. Dолго, Dорого, Dерьмово.
Смею вас разочаровать, но вариантов решения просто нет! Все зависит от того, как именно сделан и сверстан конкретный pdf. Иногда бывает, что части одного видимого параграфа физически в самом файле находятся в совершенно разных местах и блоках.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы