Ответы пользователя bozuriciyu по тегу «Поисковые системы» — Хабр Q&A

Задать вопрос

Профиль пользователя заблокирован сроком с 6 марта 2021 г. и навсегда по причине: систематические нарушения п. 5.2 регламента работы сервиса

Ответы пользователя по тегу Поисковые системы

Что выбрать для полнотекстового поиска по большому объёму данных?

bozuriciyu @bozuriciyu

Apache Tika

The Apache Tika™ toolkit detects and extracts metadata and text from over a thousand different file types (such as PPT, XLS, and PDF). All of these file types can be parsed through a single interface, making Tika useful for search engine indexing, content analysis, translation, and much more.

Apache Solr

Here are the three most common ways of loading data into a Solr index:

Using the Solr Cell framework built on Apache Tika for ingesting binary files or structured files such as Office, Word, PDF, and other proprietary formats.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Самые активные сегодня

Александр Демин
- 4 ответа
- 0 вопросов
sakair
- 1 ответ
- 2 вопроса
Drno
- 3 ответа
- 0 вопросов
Василий Банников
- 2 ответа
- 0 вопросов
Rsa97
- 2 ответа
- 0 вопросов
Hfnas
- 0 ответов
- 2 вопроса