Как брать определенные данные из PDF документа?

Question

Safronov_Alexei @Safronov_Alexei

PDF

Как брать определенные данные из PDF документа?

Привет Хабр!
Столкнулся с проблемой, писал функцию, которая берет нужные мне данные из PDF файла и передает их в бд.
Делал это через конвертациб PDF -> Word | RTF и после чего, WORD | RTF -> TXT => И там находил слова, которые стоят рядом с данными и брал данные, ну то есть, допустим в пдфе была строка "Facility Coca-Cola", я искал Facility и брал рядом стощее слово. Но в один момент понял, что рядом стоящие слова, прыгают то выше, то ниже и с точностью их не получается отследить. Какие могут быть варианты решения?

Вопрос задан более трёх лет назад
123 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб. 2025
- 586 просмотров
4

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт. 2025
- 256 просмотров
0

ответов
Windows

+1 ещё

Простой
Как вернуть встроенный предпросмотр PDF в Windows?
- 2 подписчика
- 25 окт. 2025
- 5827 просмотров
3

ответа
PDF

+1 ещё

Простой
Как в PDF поставить штамп или сделать визуализацию ЭП при трехстороннем и более подписании?
- 2 подписчика
- 25 сент. 2025
- 3229 просмотров
5

ответов
Windows

+4 ещё

Простой
Существует ли виртуальный PDF принтер со встроенным эффектом сканера?
- 4 подписчика
- 24 сент. 2025
- 5799 просмотров
2

ответа
PDF

Простой
Есть ли альтернатива wkhtmltopdf?
- 1 подписчик
- 28 июл. 2025
- 221 просмотр
2

ответа
Docker

+1 ещё

Простой
Как установить wkhtmltopdf на ларавель?
- 1 подписчик
- 28 июл. 2025
- 188 просмотров
1

ответ
Python

+3 ещё

Простой
Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций — решаемо? Или я встрял?
- нет подписчиков
- более года назад
- 525 просмотров
2

ответа
PDF

Простой
PDF Стилер (Или вредоносный код) возможно?
- 1 подписчик
- более года назад
- 314 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Какое ПО может посчитать количество страниц PDF документов в папке?
- 1 подписчик
- более года назад
- 590 просмотров
3

ответа
Показать ещё Загружается…

Answer 1 · 2020-12-21 19:12:38

Смею вас разочаровать, но вариантов решения просто нет! Все зависит от того, как именно сделан и сверстан конкретный pdf. Иногда бывает, что части одного видимого параграфа физически в самом файле находятся в совершенно разных местах и блоках.

Как брать определенные данные из PDF документа?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт