Парсинг PDF с извлечением позиций блоков

Реально ли распарсить pdf-файл (текст и изображения) таким образом, чтобы извлечь из него отдельные блоки текста и определить координаты расположения этих блоков?

Конечная задача: поиск текста в файле с выделением найденного.

Найденные мною реализации останавливаются на извлечении сплошного текста.
  • Вопрос задан
  • 5002 просмотра
Пригласить эксперта
Ответы на вопрос 2
@egorinsk
Конечно. реально. Эти координаты хранятся в PDF файле, и нет никаких проблем их оттуда извлечь. Подробности в спецификации PDF.
Ответ написан
Fesor
@Fesor
Full-stack developer (Symfony, Angular)
Воспаленный мозг породил мысль о том что бы перевести PDF в изображения, найти координаты блоков, распарсить текст, выделить в нужном блоке нужное и дальше взять координаты блока… O_o. Это так, был один проект, где надо было искать пустые места в PDF документе и заполнять их рекламной фигней. В контексте поиска, тут много вариантов. Нужно более четко сформулировать задачу. Что мол есть на входе и что должно быть на выходе.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы