Сортировка по схожести?

Question

overbeat @overbeat

MySQL
Sphinx

Сортировка по схожести?

Привет!

Существует база, допустим в миллион человек. У каждого может быть до 1000 в теории и до 100 реально параметров в формате 0/1. То есть или пользователь что-то имеет, или нет. Необходимо сделать быструю сортировку в результатах поиска по схожести с инициатором поискового запроса (у которого также есть эти параметры). Например у «искателя» есть a, c, d, f, k, m, r, s, y, z из алфавита, нужно отсортировать результаты, чтобы первым был тот, у кого есть максимальное количество подобных букв.

Понятно, что сравнивать автора с каждым из миллиона в результатах поиска любая база загнется, поэтому ищу более умные способы сделать это.

Движок на Rails, база MySQL, поиск видимо на Sphinx.

Сам ламер в данных вопросах, поэтому если вопрос совсем тупой — просто ткните где почитать, вам воздастся :)

Вопрос задан более трёх лет назад
3340 просмотров

2 комментария

Подписаться 3 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

6 комментариев

overbeat @overbeat Автор вопроса

Спасибо большое за подробный ответ!

Второй вариант понравился тем, что таблицы принадлежности людей к фильму тоже понадобятся, убьем двух зайцев сразу и то что вне зависимости от количества пользователей запросов будет всегда столько, сколько фильмов у человека. Возникает только вопрос, можно ли писать значение сразу в две базы. В смысле если человек добавит фильм, он должен быть в базе юзеров и базе фильмов.

Третий вариант рассматривал тоже, надо попробовать что из этих двух вариантов будет быстрее. Спасибо!

Написано более трёх лет назад
Dzuba @Dzuba

Возникает только вопрос, можно ли писать значение сразу в две базы. В смысле если человек добавит фильм, он должен быть в базе юзеров и базе фильмов.
Под базами Вы подразумеваете таблицы, как я понял. Тогда у меня встречный вопрос: что значит «сразу» — одним запросом? Одним не выйдет, сделайте двумя последовательными.
Вообще, по моей логике, фильмы не должны складываться в таблицу users, их незачем там дублировать. Мухи отдельно, котлеты отдельно: юзеры — в users, фильмы — в films, предпочтения юзеров — в user_films.

Кстати, второй и третий варианты — по сути одно и то же, просто в таблице третьего варианта (user_films) лежат все таблицы из второго.

Написано более трёх лет назад
overbeat @overbeat Автор вопроса

Таблицы конечно, да. Про мух и котлет понятно, но получается что, чтобы отобразить страницу пользователя с фильмами, нужно будет лезть в таблицу фильмов и проверять, есть ли у него такой фильм или нет. Или я что-то не так понял?

Написано более трёх лет назад
Dzuba @Dzuba
Ну да, для юзера USERID нужно выполнить запросы вида:
Получить список id фильмов юзера:

SELECT film_id FROM user_films WHERE user_id = USERID

Получить подробные данные для списка id фильмов, полученного в предыдущем запросе (film_id1, ..., film_idN):

SELECT * FROM films WHERE film_id IN (film_id1, ..., film_idN)

Можно это же сделать и одним запросом (но при большом объеме данных это нежелательно, имхо):

SELECT f.* FROM user_films AS uf INNER JOIN films AS f ON f.film_id = uf.film_id WHERE uf.user_id = USERID
Написано более трёх лет назад

Dzuba @Dzuba

А возможно лучше даже так:

SELECT * FROM films AS f
WHERE f.film_id IN (SELECT uf.film_id FROM user_films AS uf WHERE uf.user_id = USERID)

Написано более трёх лет назад

overbeat @overbeat Автор вопроса

Спасибо большое!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

3 комментария

overbeat @overbeat Автор вопроса

С буквами думаю не прокатит, учитывая что параметров может быть до 1000.

Написано более трёх лет назад
AlexeyK @AlexeyK

если говорить в общем, то мне довольно сложно представить реальную задачу в необходимости иметь такое количество бинарных полей

а если вообще, буквы это лишь пример, эквивалент, никто не мешает вам использовать хоть китайские иероглифы

а вообще, в теории, при большом количестве полей вам в любом случае придется двигаться методом индукции, упрощая и сокращая

Написано более трёх лет назад
overbeat @overbeat Автор вопроса

Представьте что поля — это фильмы. Общая база — 1000 фильмов, реально пользователи больше 100 фильмов вряд ли будут выбирать. Нужно найти и отсортировать людей, которым нравятся те же фильмы, что и тебе.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 133 просмотра
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 113 просмотров
1

ответ
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 190 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 365 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 248 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 216 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 225 просмотров
1

ответ
Показать ещё Загружается…

Ну а как эти параметры хранятся в БД? Это же не тысяча столбцов типа BOOL?
У пользователя есть просто записи (если приводить аналогию с фильмами) с названиями выбранных им фильмов. Но можно сделать так, как будет удобнее.

Answer 1 · 2011-03-23 23:17:20

Предложение 1: поскольку поля с фильмами представляют собой биты, то имеет смысл хранить их в виде чисел. Максимальное целое в mysql — 8-байтовый BIGINT. То есть, если всего фильмов тысяча, то потребуется полтора-два десятка таких чисел в каждой записи. Пусть N — количество таких чисел-1, userF0, ..., userFN — эти числа в записи выбранного пользователя. Тогда поиск 10 похожих пользователей в таблице с полями (user_id, f0, ..., fN) будет выглядеть так:

SELECT user_id FROM таблица
ORDER BY (BIT_COUNT(f0 & userF0) + ... + BIT_COUNT(fN & userFN)) DESC LIMIT 10;

Минусы подхода: пробегать при запросе будет все записи, при добавлении новых фильмов нужно вызывать ALTER TABLE. За скорость тоже ручаться не могу.

Предложение 2: создать 1 таблицу с юзерами и столько таблиц, сколько фильмов, в каждой из которых хранить список id юзеров, выбравших фильм. Тогда поиск похожих юзеров сведется к:

SELECT tmp.user_id FROM (SELECT user_id FROM таблица1
    UNION ALL
    SELECT user_id FROM таблица2
    UNION ALL
    ...
    UNION ALL
    SELECT user_id FROM таблицаN) AS tmp
GROUP BY tmp.user_id ORDER BY COUNT(tmp.*) DESC LIMIT 10;

Минусы подхода: большое количество подзапросов, группировка.

Предложение 3: создать 1 таблицу с юзерами (users) и 1 таблицу с юзеро-фильмами (user_films), т.е. с записями о предпочтениях юзеров следующего вида (user_id, film_id). Тогда для списка фильмов выбранного юзера (film_id0, ..., film_idN) поиск похожих юзеров сведется к:

SELECT user_id FROM user_films
WHERE film_id IN (film_id0, ..., film_idN)
GROUP BY user_id ORDER BY COUNT(*) DESC LIMIT 10;

Минусы подхода: группировка.
Хотя при индексированном поле film_id может будет и не сильно медленно.

Answer 2 · 2011-03-23 18:22:49

База не загнется, потому что будет искать Sphinx, если верить тому, что вы говорите.

Могу предложить только писать 0/1 значения в виде букв в отдельное поле, что-то вроде хеша «acdghjxyz» для каждого юзера, а потом искать по простому алгоритму похожести строк.

Сортировка по схожести?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт