Задать вопрос

Полнотекстовый поиск

Здравствуйте, уважаемые специалисты!

Возникла необходимость реализовать поиск по базе документов размером от 100 до 150 гигабайт. Среди документов встречаются форматы: текст, HTML, PDF, OpenOffice, OpenDocument, Microsoft Word/Excel, RTF.

Поиск будут осуществлять около 300 человек постоянно подключенных к базе, люди находятся в разных городах России.

Тексты на русском языке.

Что посоветуете?

1. Какие системы для реализации такого поиска существуют?
2. Возможно ли проиндексировать такой объём информации?
3. Долго ли будет осуществляться поиск по такой базе данных?
4. Какой мощности сервер необходимо выделить для решения такой задачи?
5. Где лучше хранить индексы?
6. Возможно ли получить доступ к поисковому движку через PHP?
7. Сроки реализации задачи?

Заранее спасибо за помощь!
  • Вопрос задан
  • 7626 просмотров
Подписаться 11 Оценить Комментировать
Ответ пользователя sajgak К ответам на вопрос (5)
sajgak
@sajgak
Вместо Solr советую использовать ElasticSearch. Оба они пострены на Lucene, но в эластике намного лучше обстоят дела со скоростью добавления, изменения документов в индексе + шардинг из коробки. Работал с обоими системами, даже субъективно у эластика более user-friendly язык запросов
Ответ написан