Привет Хабр!
Столкнулся с проблемой, писал функцию, которая берет нужные мне данные из PDF файла и передает их в бд.
Делал это через конвертациб PDF -> Word | RTF и после чего, WORD | RTF -> TXT => И там находил слова, которые стоят рядом с данными и брал данные, ну то есть, допустим в пдфе была строка "Facility Coca-Cola", я искал Facility и брал рядом стощее слово. Но в один момент понял, что рядом стоящие слова, прыгают то выше, то ниже и с точностью их не получается отследить. Какие могут быть варианты решения?
Смею вас разочаровать, но вариантов решения просто нет! Все зависит от того, как именно сделан и сверстан конкретный pdf. Иногда бывает, что части одного видимого параграфа физически в самом файле находятся в совершенно разных местах и блоках.
Да, понял это когда разирался в струтуре PDF, но сейчас целый день пробую новый метод, но он тоже еще не стабилен. PDF -> JPEG -> OCR => Text
Но все равно текст иногда прыгает