@strelkovandreyv

Как с помощью Apache Solr проиндексировать документы?

Добрый день, имеется Apache Solr 7, который настроен на индексацию базы данных посредством DataImportHandler
Индексация происходит успешно.
Задача состоит в том, что в базе в каждой строке есть ещё ссылка на файл, который расположен на сетевом диске, как в данном случае можно "скормить" этот файл также в индекс.
Я так понимаю, в самом Solr есть какой то встроенный функционал, а также есть библиотека Apache Tika.

В какую сторону нужно идти? (файлы в основном распознанные PDF, но также есть и doc,docx,xlsx, rtf и т.п.)
  • Вопрос задан
  • 321 просмотр
Пригласить эксперта
Ответы на вопрос 1
al_gon
@al_gon
Лутше не использовать DataImportHandlerсовсем.

Причины:

Сложная расширяемость
Абсолютно 0 возможностей для скалиривания процесса индексированния
Возможный, но очень сложный и "обезжиренный" мониторинг процесса индексированния.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы