Парсинг PDF с извлечением позиций блоков

Question

ChemAli @ChemAli

Парсинг

Парсинг PDF с извлечением позиций блоков

Реально ли распарсить pdf-файл (текст и изображения) таким образом, чтобы извлечь из него отдельные блоки текста и определить координаты расположения этих блоков?

Конечная задача: поиск текста в файле с выделением найденного.

Найденные мною реализации останавливаются на извлечении сплошного текста.

Вопрос задан более трёх лет назад
5064 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

5 комментариев

Сергей Протько @Fesor

Еще есть мысль перевести PDF в HTML…

Написано более трёх лет назад
ChemAli @ChemAli Автор вопроса

На входе есть pdf-файл, из которого будут сделана масса картинок-страниц. Они-то и будут отображаться, поверх них же будет отображаться подсветка найденного.

Также на входе есть исходники pdf в формате eps или любом другом. Файлы делаются в инДизайне.

Написано более трёх лет назад
ChemAli @ChemAli Автор вопроса

Зависон как раз на вычленении из pdf блоков, а затем их координат и содержащегося текста.

Написано более трёх лет назад
Muff @Muff

Непонятно зачем связываться с pdf, если есть есть исходники в формате eps, PostScript же проще распарсить.

Написано более трёх лет назад
ChemAli @ChemAli Автор вопроса

Нет уверенности, что завтра исходники будут. PDF файлы также будут использоваться в системе, поэтому им отдан приоритет.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 235 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 3 подписчика
- 05 мар.
- 1003 просмотра
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 376 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 484 просмотра
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 526 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 803 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 811 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 485 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт. 2025
- 312 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент. 2025
- 516 просмотров
0

ответов
Показать ещё Загружается…

Специалист по парсингу сайтов

Qwintry

от 1 000 до 3 000 $

Senior backend developer (Node. js)

DataLouna

от 5 000 до 7 500 $

Программист (backend Python, Django middle +) - работа очно в офисе в г. Москва

Главгосэкспертиза России • Москва

от 250 000 до 350 000 ₽

Answer 1 · 2012-01-13 15:47:57

Конечно. реально. Эти координаты хранятся в PDF файле, и нет никаких проблем их оттуда извлечь. Подробности в спецификации PDF.

Answer 2 · 2012-01-13 15:42:15

Воспаленный мозг породил мысль о том что бы перевести PDF в изображения, найти координаты блоков, распарсить текст, выделить в нужном блоке нужное и дальше взять координаты блока… O_o. Это так, был один проект, где надо было искать пустые места в PDF документе и заполнять их рекламной фигней. В контексте поиска, тут много вариантов. Нужно более четко сформулировать задачу. Что мол есть на входе и что должно быть на выходе.

Парсинг PDF с извлечением позиций блоков

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт