@HexUserHex

Организовать быстро поиск по содержимому в pdf документах?

Приветствую,

имеется довольно большой объём pdf документов(50gb), требуется организовать поиск по их содержимому, подскажите как это сделать максимально просто и быстро(требуется временное решение без применения ELK итд)?

Какие варианты вижу я:
1. на python распарсить и сохранить в БД, и уже там проводить поиск, трудность в том что pdf весьма не так просто распарсить как html,j son, xml

2. найти какую-то чудо утилиту которая распознает текст и на основе его создаст json/xml объект и сохранит его, и дальше уже производить поиск по этим файлам...

Буду любым идеям и предложениям, моя цель это просто по ключевым словам находить pdf файлы в которых они встречаются.
  • Вопрос задан
  • 922 просмотра
Решения вопроса 1
dimonchik2013
@dimonchik2013
non progredi est regredi
Пригласить эксперта
Ответы на вопрос 1
Если делать самостоятельно, то с полнотекстовым движком Solr. В нем уже включен модуль для обработки документов PDF и имеет свой HTTP API для запросов. Нужно написать свою программу-клиент.

Или взять готовое ПО, как предложил Dimonchik .

Добавлено
Нашел https://www.opensemanticsearch.org/
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы