Как реализовать кастомную сортировку на Sphinx?

Question

DenFm @DenFm

Sphinx

Как реализовать кастомную сортировку на Sphinx?

Приветствую!

Суть:
Имеется индекс товарных предложений, в котором помимо основных данных для фасетного и полнотекствого поиска есть атрибуты формата JSON:
1) Атрибут с наименованием "similar_from". В данном атрибуте лежит массив IDs похожих товаров, для которых данный товар является похожим.

+-------+---------------------------------+
| id    | similar_from                    |
+-------+---------------------------------+
| 1     | [2, 3]                          |
+-------+---------------------------------+
| 2     | [1, 3]                          |
+-------+---------------------------------+
| 3     | [1, 2]                          |
+-------+---------------------------------+

Здесь видно, что:

товар с ID:1 является похожим для товаров ID:2, ID:3
товар с ID:2 является похожим для товаров ID:1, ID:3
товар с ID:3 является похожим для товаров ID:1, ID:2

2) Атрибут с наименованием "similar". В данном атрибуте лежит массив IDs похожих товаров для данного товаров

+-------+---------------------------------+
| id    | similar                         |
+-------+---------------------------------+
| 1     | [3, 2]                          |
+-------+---------------------------------+
| 2     | [3, 1]                          |
+-------+---------------------------------+
| 3     | [2, 1]                          |
+-------+---------------------------------+

По сути, эта некая инверсия данных similar_from атрибута.
С важным уточнением: здесь крайне важна очередность, т.е. чем меньше индекс у элемента массива, тем он более похож на конкретный товар. Например, ID:3 более похож на товар ID:1, чем ID:2.
(Построением самих коллекций (массив similar) похожих товаров занимается специальный алгоритм бекенда, который высчитывает расстояния между товарами)

Вопрос:
Как правильно написать запрос к sphinx (sphinxql), чтобы построить выборку похожих товаров для конкретного товара, с учётом очередности, которая задана в самом массиве similar. Причём, важно не потерять возможность уметь фильтровать, делать пагинацию, другую сортировку (по другим полям индекса, в этом случае сортировка по очередности из массив similar не нужна) и т.д все базовые плюшки sphinx?

Вопрос задан более трёх лет назад
179 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Решения вопроса 1

3 комментария

DenFm @DenFm Автор вопроса

Не очень понятно, т.к. 1 товар может быть похожим на десятки других товаров с разными расстоянием похожести, т.е. позиция разная...

Написано более трёх лет назад

Сергей Тихонов @tumbler

Ну вот возьмем ваш пример с колонкой similar.
На первом шаге перенумеруем позиции:

+-------+---------------------------------------+
| id    | similar                               |
+-------+---------------------------------------+
| 1     | {3: 1, 2: 2}                          |
+-------+---------------------------------------+
| 2     | {3: 1, 1: 2}                          |
+-------+---------------------------------------+
| 3     | {2: 1, 1: 2}                          |
+-------+---------------------------------------+

На втором шаге перекинем данные аналогично тому, как это было проделано с колонкой similar_from

+-------+---------------------------------------+
| id    | similar_from                          |
+-------+---------------------------------------+
| 1     | {2: 2, 3: 2}                          |
+-------+---------------------------------------+
| 2     | {1: 2, 3: 1}                          |
+-------+---------------------------------------+
| 3     | {1: 1, 3: 1}                          |
+-------+---------------------------------------+

Получается, раз 1й товар встречался в похожих у 2го и 3го (оба раза на втором месте), то и в новом словаре для него будут ключами - товары 2 и 3, значениями - позиции, оба раза 2-е.

Когда из этого набора данных удастся вытащить позиции для товара 1, получится что-то вроде:

+-------+---------------------------------------+
| id    | similar_from.1                        |
+-------+---------------------------------------+
| 1     | null (или 0, не проверял)             |
+-------+---------------------------------------+
| 2     | 2                                     |
+-------+---------------------------------------+
| 3     | 1                                     |
+-------+---------------------------------------+

Отсюда уже понятно что в where и order by

Написано более трёх лет назад

DenFm @DenFm Автор вопроса

Спасибо. Ваше решение рабочие. Применим.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Sphinx

Средний
Как указать --skip-ssl в конфиге manticore?
- 3 подписчика
- 26 февр.
- 359 просмотров
1

ответ
Linux

+2 ещё

Простой
Как установить Sphinx на Alma Linux 9?
- 1 подписчик
- 27 нояб. 2024
- 138 просмотров
4

ответа
PHP

+1 ещё

Средний
Как заставить sphinxsearch 3.6.1 выводить несколько полей?
- 1 подписчик
- 19 сент. 2024
- 79 просмотров
2

ответа
1С-Битрикс

+1 ещё

Сложный
Как сделать чтобы sphinx выдавал сперва точные совпадения а потом остальные?
- 1 подписчик
- 18 сент. 2024
- 154 просмотра
1

ответ
Sphinx

Простой
Какие существуют ограничения на количество записей у real time индексов manticoresearch?
- 6 подписчиков
- более года назад
- 362 просмотра
0

ответов
CentOS

+1 ещё

Простой
Почему SPHINX не стартует после остановки какой-то службы?
- 1 подписчик
- более года назад
- 89 просмотров
1

ответ
Sphinx

Средний
Почему текстовое поле из real time индекса пустое при запросе?
- 1 подписчик
- более года назад
- 42 просмотра
1

ответ
1С-Битрикс

+1 ещё

Средний
Как сделать так чтобы sphinx не искал вместе с «тест» слово «test»?
- 2 подписчика
- более года назад
- 99 просмотров
1

ответ
Sphinx

Простой
Почему долгий поиск некоторых слов в SPHINX?
- 2 подписчика
- более года назад
- 68 просмотров
0

ответов
Symfony

+1 ещё

Средний
Как сделать, чтобы Sphinx выполнял поиск по части слова?
- 2 подписчика
- более года назад
- 210 просмотров
1

ответ
Показать ещё Загружается…

Разметчик данных (Data Annotator) (без опыта)

Nomadic Soft

от 300 до 500 $

Специалист тех поддержки (английский язык, смены с 16:00 до 00:00 Мск)

ТехСофт

от 50 000 ₽

Junior / Middle Специалист по тестированию

SubSync

от 70 000 ₽

Answer 1 · 2020-03-11 19:38:45

Можно попробовать так: для каждого "похожего" товара прописать json-словарь, содержащий в качестве ключа id товара, на который он похож, а в качестве значения - позицию в "похожих" соответствующего товара.
Тогда для получения похожих на продукт с id=1 будет что-то вроде

SELECT id, related_pos.1 AS position WHERE position != 0 ORDER BY position

по-сути объем хранимых в JSON данных увеличивается вдвое: раньше хранили список id похожих, а теперь еще и позицию каждого похожего.

Как реализовать кастомную сортировку на Sphinx?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт