Парсер pdf, возможно ли?

Добрый день, имею файлы в формате пдф, необходимо спарсить их, в документе имеются метки, например автор1, под ним записи, автор2, под ним записи итд. таких меток 8шт. кто нибудь встречал в природе парсер пдф?
  • Вопрос задан
  • 5669 просмотров
Пригласить эксперта
Ответы на вопрос 5
@jkotkot
режим сарказма
Ну так-то можно текст просто вытащить оттуда. с координатами. потом как-то разобрать.
Мы такое делали, но только за деньги)
Ответ написан
Комментировать
@TANK_IST
Можно конвертировать pdf в html, и дальше парсить через phpQuery или подобное.
Сервис для конвертации https://cloudconvert.com/ , есть api.
Утилита https://github.com/coolwanglu/pdf2htmlEX
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
Fine Reader конвертит в txt, Foxit Reader тоже, относительно бесплатно
Ответ написан
Комментировать
@alex-t
Прогр. в команде rco.ru
Основные проблемы с PDF.
1. Там может быть текст, тогда есть много вариантов, а может быть картинка. Катринку, соответсвенно, какой-то распознавалкой.
2. Даже когда там текст, смысл PDF в показе картинки, поэтому слово может быть словом, может быть отдельными буквами, под видимым текстом может оказаться кусочек "ненужного" невидимого (лично нашел однажды!), который прочитается конвертером.
Ответ написан
Комментировать
profesor08
@profesor08 Куратор тега PHP
Чтоб исключить попадание мусора, советую конвертировать сначала в картинки, да хоть скриншоть, потом через любую распознавалку текста. Еще можно открыть в хроме например и скопировать текст, но это не всегда прокатывает.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы