Задать вопрос

Что выбрать для полнотекстового поиска по большому объёму данных?

Доброго дня
Стоит такая амбициозная (для меня по крайней мере) задача

Есть ~50M PDF документов, средний размер каждого ~1MB, минимальный 10KB, максимальный 50MB.
Суммарный объём выходит под 50TB.
95% данных в документе это текст.
Нужно обеспечить полнотекстовый поиск по всему объёму данных, тоесть есть фраза - надо показать документы где она встречается и (опционально) показать снипеты, тоесть текстовое окружение где в документе нашлась фраза.

Добавление даных в базу происходит редко и оно некритично, тоесть его можно выполнять долго и с низким приоритетом. Удаление/изменение данных не случается вообще.

Требования к системе в порядке приоритета.
1 Возможность запустить это всё на как можно более дешёвом и доступном железе - это критично т.к. бюджет на инфраструктуру ограничен
2 Скорость поиска
3 Надёжность и отказоустойчивость
4 Лёгкость масштабирования

Самостоятельно почитал про Эластик, Монго, Постгр, Касандру и от этого ещё больше запутался.

Если у кого-то есть опыт в схожих задачах поделитесь идеей при помощи каких технологий это можно было бы реализовать.
Спасибо заранее всем откликнувшимся
  • Вопрос задан
  • 2300 просмотров
Подписаться 16 Простой 1 комментарий
Ответ пользователя Алексей Карташов К ответам на вопрос (11)
А почему никто не упомянул Sphinx?
Ответ написан