Организовать быстро поиск по содержимому в pdf документах?
Приветствую,
имеется довольно большой объём pdf документов(50gb), требуется организовать поиск по их содержимому, подскажите как это сделать максимально просто и быстро(требуется временное решение без применения ELK итд)?
Какие варианты вижу я:
1. на python распарсить и сохранить в БД, и уже там проводить поиск, трудность в том что pdf весьма не так просто распарсить как html,j son, xml
2. найти какую-то чудо утилиту которая распознает текст и на основе его создаст json/xml объект и сохранит его, и дальше уже производить поиск по этим файлам...
Буду любым идеям и предложениям, моя цель это просто по ключевым словам находить pdf файлы в которых они встречаются.
HexUserHex, там вроде самое сложное - это научить его работать сразу и с русским, и с английским, и нормально распознавать текст в таблицах.
Ну и ещё надо в конце какую-то пост-обработку делать, чтобы корректировать кривое распознавание.
Для этого у нас дата-саентист даже нейронку сделал.
Если делать самостоятельно, то с полнотекстовым движком Solr. В нем уже включен модуль для обработки документов PDF и имеет свой HTTP API для запросов. Нужно написать свою программу-клиент.