Архитектура БД для фильтров аналог Яндекс Маркета?

Question

seva_str @seva_str

Архитектура БД для фильтров аналог Яндекс Маркета?

Разрабатываем сейчас структуру характеристик товара, чтобы реализовать фильтры как на Яндекс Маркете.

Высоконагрузный проект, поэтому запросы на 5 листов А4 не пойдут.

market.yandex.ru/guru.xml?cmd=-rr=9,0,0,0-v…

Вот смотрите, если отмечаем любой пункт в фильтре, то вся фильтрация перестраивается и убираються те пункты, по которым подбор уже не пройдет
my.jetscreenshot.com/5783/20110219-smd2-59k...

И это все летает

Вопрос, может есть где статьи или человек, который сможет построить архитектуру таблиц с такими фильтрами?

Готов хорошо заплатить

Вопрос задан более трёх лет назад
8517 просмотров

Комментировать

Подписаться 41 Сложный Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

5 комментариев

ainu @ainu

Пишите статью, красивое решение)

Написано более трёх лет назад
Евгений Безымянников @psman

Ох, было бы время на полноценную статью.
Но постараюсь, может даже и сейчас :)

Написано более трёх лет назад
CKOPOBAPKuH @CKOPOBAPKuH

так, а если в одном из селектов стоит значение «всё равно» — то получается, что я должен искать по нескольким md5? или как?

Написано более трёх лет назад
Евгений Безымянников @psman

Да, такой вопрос предвидел.
В моём случае было 2 варианта: 90% параметров по умолчанию имели какое то значение (без выбора «не важно»). Те параметры, которые могли быть не определены выносились в отдельный «индекс» (таких было около 35-40) — т.е. был второй индекс. Было желание сделать ускорение поиска с использование битовой маски, но как то не срослось, ибо скорость и так устраивала. Но все же, если будет подобная задача снова, то я бы проанализировал максимальное число значение «не важно», что бы понимать, какая доля их может быть в общей выборке без учета данных показателей. А там уже 2 варианта: или думать над изначальным форматом хранения данных (индексов)… или городить систему с масками.

План действия достаточно прост: в случае с несколькими «не важно» делаем выборку по другим заданным параметрам с помощью индекса1 — получаем X результатов. Этот поиск идет достаточно быстро (неттоп на атоме330 на 1 млн записях делает запрос за 0.005 сек в первый раз и за гранью подсчета во второй и последующие (кэш работает)). Соответственно у нас из Х результатов должно получится Y (меньшее число). Для этого есть второй битовый индекс у которого мы должны сначала откинуть все «не важно», а потом сравнить с заданной битовой маской. Последовательность из Xor, And, Or для получения нужного результата — это пусть будет «домашним заданием».

Хм… задуманная статья разрастется описанием быстрого фильтрования по шинглам и «мгновенного» поиска по базе документов.

Написано более трёх лет назад
evnuh @evnuh

@Radiocity видимо вы спрашиваете про битмапы. Массив чекбоксов может быть представлен в виде строки из 0 и 1, а строка из 0 и 1 в свою очередь - есть ни что иное как бинарное представление числа

Написано более трёх лет назад

2 комментария

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 133 просмотра
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 113 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 365 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 248 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 217 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 225 просмотров
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 455 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2011-02-19 12:10:56

Делали нечто подобное (фильтр по 100-120 чекбоксам и около 50 других вариаций (селекты, диапазоны))
Чекбоксы загнали в одно 128 битное число — уже съэкономили кучу времени
часть диапазонов (цена от 100-200 200-500 500-1000 и т.д.) так же преобразовали в маленькие числа и объединили в другими показателями. Получился Индекс размером в 300-350 байт. Из него сделали 128 битный «md5» И «поисковой таблице» было всего лишь id, наш Индекс + id товара +128 битный md5. Выборка делается по 128 битному числу (ясно дело, что часть товаров туда попадают не те, которые нужно (процентов 5 максимум)), потом из выборки в 100-300 товаров делается проверка по полному Индексу (первая выборка с мемтаблицу делается). На выходе то, что нам надо.
На деле еще реализован алгоритм нечеткого поиска, что бы при ограничении в максимальной цене в 200$ показывать товар и за 220-230 (+-10-15%).
Товаров в базе около 12 млн (детали станков, автозапчасти и т.п.).
Поисковая таблица на пару порядков меньше в размере, чем исходная. Поиск идет за считанные миллисекунды.

Answer 2 · 2011-02-19 11:44:20

Вам стоит использовать Sphinx. Посмотрите доклад про организацию товарного каталога в dostavka.ru. Sphinx также используется в товарном каталоге на gorbushka.ru.

Answer 3 · 2011-02-20 18:52:37

А чем не устраивает стандартное реляционное решение вида

product (product_id [PK], name,… );
property (property_id [PK], name, ...);
value (value_id [PK], value);
product_property_value (product_id, property_id, value_id, primary key (property_id, value_id, product_id, ));

или есть какие-то данные, которые показывают, что на ваших объёмах оно будет тормозить?

на одном интернет-проекте на 250 000 активного ассортимента и 60 000 уникальных посетителей в сутки не тормозит особо.

Answer 4 · 2011-04-12 21:07:58

Да, конечно.

начну с конца. value — чтобы выбирать по числовому идентификатору и чтобы для свойства «цвет крышки» хранился номер 100, а не где-то слово «белый», а где-то «белий» ну и т.п.

далее, в интерфейсе подбора по параметрам человек выбирает «а покажите мне все продукты, у которых объём жесткого диска 2 гб, а ширина экрана 100 метров».

выбираем продукты

select distinct p.name,p.code,p.price from

product p inner join product_property_value ppv using (product_id)

where

ppv.property_id = HDD_SIZE_PROPERTY_ID and value_id = VID_100GB

and ppv.property_id = SCREEN_SIZE_PROPERTY_ID and value_id = VID_100M

при наличии индекса ppv(property_id, value_id) должно работать быстро

тут, конечно, возникает разумный вопрос — а что делать с запросами типа «ширина монитора больше 17 дюймов».

на что возникает резонный ответ — если у нас есть такие запросы, у нас есть несколько вариантов:

1) не париться, и добавлять в приведённый выше запрос таблицу value, для которой построен индекс по полю value

select distinct p.name,p.code,p.price from

product p inner join product_property_value ppv using (product_id)

inner join value v on v.value_id = ppv.value_id

where

ppv.property_id = SCREEN_SIZE_PROPERTY_ID and v.value > VID_17IN

2) делить таблицу value на, скажем, три

value_int для целых значений
value_string для текстовых
value_decimal для нецелых значений

в таблицу property мы добавляем признак типа значений свойства и на этапе построения приведённого выше запроса соединяем с требуемой таблицей

из всего этого видим мы, что основная проблема — это выборки по диапазонам, так?
а выборки по одному или нескольким значениям нормально решаются с помощью value_id

3) следующий способ оптимизации по скорости:
для всех значений, для которых возможна выборка по диапазону
мы добавляем в property поля
max_value_id и min_value_id
указывающие на идентификатор ряда в value, в котором хранится максимальное и минимальное значение свойства соответственно.

ясно, что идентификаторы свойств должны быть упорядочены по значениями свойств.

при использовании такого подхода можно выбирать с помощью конструкции value_id between даже при поиске по диапазону значений и не лазать в таблицу value при выборках, что добро

Архитектура БД для фильтров аналог Яндекс Маркета?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт