Как организовать поиск по 10 млн. документов?

Question

IRuslan @IRuslan

Веб-разработка

Как организовать поиск по 10 млн. документов?

Есть сайт. В MySQL БД хранится порядка 10 000 000 записей.

Нужно сделать полнотекстовый поиск + что бы поиск был релевантным.

Использование поискового движка не спасает. Уже при 1 млн. задержка выдачи результатов с помощью ApacheSolr несколько секунд.

Пытались смотреть на www.elasticsearch.org и вообще связки с NoSQL (HSearch), но решения способного давать релевантную выдачу за приемлемое время не нашли. Вернее варианты есть, но пришлось бы реализовывать логику подсчета релевантности самим, для всех типов записей, а хотелось бы чего-нибудь готового.

Вопрос задан более трёх лет назад
2815 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Веб-разработчик Базовый

9 месяцев

Далее
ProductStar × РБК

Профессия: Web-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

IRuslan @IRuslan Автор вопроса

sphinx мы тоже рассматривали. Есть ли данные как он будет себя вести с таким объемом, и сколько он при этом выдержит хитов (запросов ожидается большое количество)?

Написано более трёх лет назад
Евгений @Nc_Soft

Странно что вы его рассматривали и не владеете этими данными. С объемом у него все в порядке, до 100млн документов, на счет количества запросов не вникал в этот факт, всегда хватало. Да и на хабре он стоит как поисковый движок.

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

Searching performance. Searching through 1,000,000-document, 1.2 GB text collection that we use for everyday development and testing runs at 500+ queries/sec on a 2-core desktop machine with 2 GB of RAM.

sphinxsearch.com/about/sphinx/

если рассматривали то могли бы хотя бы уйти дальше главной страницы

Написано более трёх лет назад
IRuslan @IRuslan Автор вопроса

Сайт проекта я читал, и на круглые циферки смотрел. Просто хотел услышать реальный опыт людей в этом вопросе.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 7

Комментировать

2 комментария

3 комментария

Пума Тайланд @opium

А чем отличается связка пхп+мускул+ сфинкс от не пхп связки? И каким боком тут nosql?
У вас какие то странные представления о производительности.

Написано более трёх лет назад
Искандер Гиниятуллин @rednaxi

Если поисковик отдает список ключей то по большому счету без разницы тянуть их из mysql или nosql

Написано более трёх лет назад
IRuslan @IRuslan Автор вопроса

Разве выборка по ключам из key-value хранилища не будет быстрее запроса с 5-6 джойнами на таблицы около 1 млн. записей каждая в MySQL?

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 328 просмотров
6

ответов
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 3 подписчика
- 03 июл.
- 354 просмотра
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 943 просмотра
3

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3825 просмотров
12

ответов
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 481 просмотр
3

ответа
Веб-разработка

Простой
Какую панель для хостинга выбрать в моём случае?
- 3 подписчика
- 25 мая
- 530 просмотров
6

ответов
Веб-разработка

+1 ещё

Средний
Изоляция сетевого слоя (WebSockets/Fetch) в Web Worker для высоконагруженного UI: используют ли такой паттерн в реальном проде?
- 1 подписчик
- 24 мая
- 241 просмотр
4

ответа
Веб-разработка

+1 ещё

Средний
Safari помечает легитимный сайт как мошеннический. Google clean, Apple не отвечает. У кого был похожий опыт?
- 2 подписчика
- 22 мая
- 282 просмотра
2

ответа
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 3 подписчика
- 20 мая
- 1195 просмотров
4

ответа
Веб-разработка

Средний
Каков план обучения для веб разработки аналога foodsharing.de?
- 1 подписчик
- 19 мая
- 205 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2011-02-17 07:10:50

Евгений @Nc_Soft

sphinxsearch.com

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2011-02-17 10:56:17

IRuslan @IRuslan Автор вопроса

Спасибо за информацию. Устроим тест-драйв сфинксу, тогда станет понятно подойдет ли он нам…

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2011-02-17 12:07:08

Пума Тайланд @opium

Просто люблю качественно работать

До 100 запросов в секунду держит сфинкс.

Ответ написан более трёх лет назад

2 комментария

Answer 4 · 2011-02-17 14:50:46

В рамках поставленного вопроса, да сфинкс скорее всего бы спас.

Но ввиду того, что приложение на PHP + MySQL с таким объемом может не справиться, видится необходимость добавления NoSQL. И как следствие хотелось бы найти самый простой способ объединения NoSQL и поискового движка.
Идеальной была бы связка NoSQL + Search таким образом что бы поисковик отдавал список ключей по релевантности, а сами документы уже потом тянуть из NoSQL.

Answer 5 · 2011-02-17 14:57:44

Aleks @aleks_raiden

Xapian например

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2011-02-17 15:10:20

Riateche @Riateche

Яндекс для сервера, как вариант.

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2011-02-17 17:07:49

densilvio @densilvio

Мы для этой цели использовали Lucene

Ответ написан более трёх лет назад

Комментировать

Answer 8 · 2011-02-23 03:11:09

Использование поискового движка не спасает. Уже при 1 млн. задержка выдачи результатов с помощью ApacheSolr несколько секунд.

Вы что-то делаете не так.

сколько индекс занимает на жестком диске?
сколько памяти выделяете под виртуальную машину и сколько соотв-но остается под файловый кеш операционной системы?
какое кол-во документов возвращает поисковый запрос?
есть ли какие-то хитрые штуки вроде группировки документов или подсветки ключевых слов на огромных документах

Ну в вообще, если документы не огромные, то обьем вполне реальный, и даже не требует распределенного индекса, при увеличении нагрузки можно обойтись и репликацией.

Как организовать поиск по 10 млн. документов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт