Настройка поиска часто изменяющихся данных в Sphinx?

Question

Anton Kuzmichev @Assargin

Перед ответом смотрю наличие ✔ в ваших вопросах

Sphinx

Настройка поиска часто изменяющихся данных в Sphinx?

Всем доброго праздничного дня!

Есть некоторый массив данных, по которому требуется организовать поиск, по множеству критериев.

Понимая, что конёк сфинкса — всё же полнотекстовый поиск, а в моем случае его не требуется, я таки провёл тесты, которые однозначно подтвердили — «надо брать».

Осталось спроектировать схему работы и обновления индексов.

Итак,

Данные (немного конкретики: десятки тысяч объявлений) лежат в мускуле, где с ними регулярно происходит весь спектр CRUD-операций. Допустима задержка актуальности индекса в пределах 5 минут.

Как организовать обычный индекс? Схема «основной индекс, обновляющийся в 00:00 + дельта-индекс за сегодня, обновляющийся раз в 5 минут» обеспечит обновление изменившихся данных? Как вы делали похожую задачу, если перед вами такая однажды стояла?

Сразу скажу, что в силу некоторых причин я пока не могу использовать для задачи RT-индексы — не получится быстро переделать приложение так, чтобы наряду с выполнением запросов к mysql он их отправлял в sphinx. Хотя, если есть способ, как можно настроить своего рода «репликацию» нескольких таблиц, где мастером будет мускул, а слэйвом — сфинкс — очень даже рассмотрю такой вариант.

Вопрос задан более трёх лет назад
5305 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

7 комментариев

Anton Kuzmichev @Assargin Автор вопроса

Я правильно вообще понимаю систему с основным + дельта-индексом: индексация дельты раз в 5 минут обеспечивает индекс _новыми_ данными, килл-лист обеспечивает непопадание в результаты поиска _удаленных_ данных, а вот что делать с обновившимися записями — вопрос?

Написано более трёх лет назад
Anton Kuzmichev @Assargin Автор вопроса

Либо переиндексация, либо RT?

Написано более трёх лет назад
Пума Тайланд @opium

Как вариант при обновлении удалили старое объявление и добавили новое.

Написано более трёх лет назад
Anton Kuzmichev @Assargin Автор вопроса

ой, вон там ниже написался коммент на ваш коммент)

Написано более трёх лет назад
Пума Тайланд @opium

А чего не прокатит то?
Мне кажется правок на полпинка и прокатит сразу же.

Написано более трёх лет назад
Anton Kuzmichev @Assargin Автор вопроса

Просто id имеет значение у нас, ими не разбрасываемся)

Написано более трёх лет назад
Пума Тайланд @opium

Ну меняйте где надо айди.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 180 просмотров
1

ответ
Sphinx

Простой
Возможно ли настроить wordforms в Manticore с добавлением нескольких синонимов к указанному слову, а не только один?
- 1 подписчик
- 06 окт. 2025
- 94 просмотра
1

ответ
Sphinx

+1 ещё

Простой
Не ставится Sphinx в виртуальной машине Bitrix 7.5.5?
- 1 подписчик
- 14 авг. 2025
- 72 просмотра
0

ответов
Sphinx

Средний
Как указать --skip-ssl в конфиге manticore?
- 3 подписчика
- более года назад
- 374 просмотра
1

ответ
Linux

+2 ещё

Простой
Как установить Sphinx на Alma Linux 9?
- 1 подписчик
- более года назад
- 180 просмотров
4

ответа
PHP

+1 ещё

Средний
Как заставить sphinxsearch 3.6.1 выводить несколько полей?
- 1 подписчик
- более года назад
- 106 просмотров
2

ответа
1С-Битрикс

+1 ещё

Сложный
Как сделать чтобы sphinx выдавал сперва точные совпадения а потом остальные?
- 1 подписчик
- более года назад
- 210 просмотров
1

ответ
Sphinx

Простой
Какие существуют ограничения на количество записей у real time индексов manticoresearch?
- 6 подписчиков
- более двух лет назад
- 375 просмотров
0

ответов
CentOS

+1 ещё

Простой
Почему SPHINX не стартует после остановки какой-то службы?
- 1 подписчик
- более двух лет назад
- 140 просмотров
1

ответ
Sphinx

Средний
Почему текстовое поле из real time индекса пустое при запросе?
- 1 подписчик
- более двух лет назад
- 65 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2013-09-30 12:59:07

В общем, решил с помощью дельта-индекса. Основной индекс (раз в сутки), дельта-индекс+мёрж его в основной (каждые 3 минуты). новые и обновленные документы появляются в основном индексе сами, для выбрасывания удаленных же определил sql_query_killlist в дельта-индексе. Всем спасибо!

Answer 2 · 2013-09-13 16:02:35

Что такое у вас изменившиеся данные, если вы изменили вчерашние данные то конечно дельта индекс не учтет их либо их надо как то по особому менять, то есть делать новое объявление.

Answer 3 · 2013-09-14 02:25:43

в силу некоторых причин я пока не могу использовать для задачи RT-индексы — не получится быстро переделать приложение так, чтобы наряду с выполнением запросов к mysql он их отправлял в sphinx

теоретически можно просто сделать триггер на обновление таблиц(ы) + подцепить сервер Sphinx'а через FEDERATED storage engine

Answer 4 · 2013-09-13 16:41:21

С основной mysql-базой такой номер не прокатит)

Я тут еще посмотрел на тему мёржа индексов:
highload.com.ua/index.php/2009/11/30/sphinxsearch-index-merging/

Получается, чтобы «обновить» в основном индексе имеющейся документ, нужно чтобы этот документ оказался в дельта-индексе, и плюс указать фильтр при мёрже для удаления из основного индекса удаленных и изменных документов.

Настройка поиска часто изменяющихся данных в Sphinx?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт