Организовать быстро поиск по содержимому в pdf документах?

Question

HexUserHex @HexUserHex

Организовать быстро поиск по содержимому в pdf документах?

Приветствую,

имеется довольно большой объём pdf документов(50gb), требуется организовать поиск по их содержимому, подскажите как это сделать максимально просто и быстро(требуется временное решение без применения ELK итд)?

Какие варианты вижу я:
1. на python распарсить и сохранить в БД, и уже там проводить поиск, трудность в том что pdf весьма не так просто распарсить как html,j son, xml

2. найти какую-то чудо утилиту которая распознает текст и на основе его создаст json/xml объект и сохранит его, и дальше уже производить поиск по этим файлам...

Буду любым идеям и предложениям, моя цель это просто по ключевым словам находить pdf файлы в которых они встречаются.

Вопрос задан более трёх лет назад
3308 просмотров

4 комментария

Подписаться 3 Простой 4 комментария

Рамис @ramzis

textract

Написано более трёх лет назад
Василий Банников @vabka

pdf весьма не так просто распарсить как html,j son, xml

tesseract

Написано более трёх лет назад
HexUserHex @HexUserHex Автор вопроса

Василий Банников, именно) я перед тем как спросить попробовал написать простой парсер на Python..
Но быстро понял что это весьма не просто...

Написано более трёх лет назад
Василий Банников @vabka

HexUserHex, там вроде самое сложное - это научить его работать сразу и с русским, и с английским, и нормально распознавать текст в таблицах.
Ну и ещё надо в конце какую-то пост-обработку делать, чтобы корректировать кривое распознавание.
Для этого у нас дата-саентист даже нейронку сделал.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сделай сам

+1 ещё

Средний
Кто имеет опыт в создании калькулятора с камерой и нейросетью?
- 1 подписчик
- 03 мар.
- 431 просмотр
2

ответа
Искусственный интеллект

+1 ещё

Средний
Что лучше зоопарк или VLM для извлечения данных из ЖД накладных (грязные сканы, печати, рукопись)?
- 4 подписчика
- 05 февр.
- 514 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб. 2025
- 586 просмотров
4

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт. 2025
- 256 просмотров
0

ответов
Windows

+1 ещё

Простой
Как вернуть встроенный предпросмотр PDF в Windows?
- 2 подписчика
- 25 окт. 2025
- 5829 просмотров
3

ответа
PDF

+1 ещё

Простой
Как в PDF поставить штамп или сделать визуализацию ЭП при трехстороннем и более подписании?
- 2 подписчика
- 25 сент. 2025
- 3229 просмотров
5

ответов
Windows

+4 ещё

Простой
Существует ли виртуальный PDF принтер со встроенным эффектом сканера?
- 4 подписчика
- 24 сент. 2025
- 5799 просмотров
2

ответа
Распознавание текста

Простой
Какое есть ПО для обработки (распознавания) информации?
- 3 подписчика
- 19 сент. 2025
- 394 просмотра
1

ответ
PDF

Простой
Есть ли альтернатива wkhtmltopdf?
- 1 подписчик
- 28 июл. 2025
- 221 просмотр
2

ответа
Docker

+1 ещё

Простой
Как установить wkhtmltopdf на ларавель?
- 1 подписчик
- 28 июл. 2025
- 188 просмотров
1

ответ
Показать ещё Загружается…

pdf весьма не так просто распарсить как html,j son, xml

tesseract
Василий Банников, именно) я перед тем как спросить попробовал написать простой парсер на Python..
Но быстро понял что это весьма не просто...
HexUserHex, там вроде самое сложное - это научить его работать сразу и с русским, и с английским, и нормально распознавать текст в таблицах.
Ну и ещё надо в конце какую-то пост-обработку делать, чтобы корректировать кривое распознавание.
Для этого у нас дата-саентист даже нейронку сделал.

Answer 1 · 2021-06-25 23:24:12

Dimonchik @dimonchik2013

non progredi est regredi

docfetcher.sourceforge.net/en/index.html

и прочие desktop search

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2021-06-26 11:09:40

Если делать самостоятельно, то с полнотекстовым движком Solr. В нем уже включен модуль для обработки документов PDF и имеет свой HTTP API для запросов. Нужно написать свою программу-клиент.

Или взять готовое ПО, как предложил Dimonchik .

Добавлено
Нашел https://www.opensemanticsearch.org/

Организовать быстро поиск по содержимому в pdf документах?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт