Как лучше организовать хранение и релевантный поиск по нескольким тегам?

Question

Вадим @vshemarov

Как лучше организовать хранение и релевантный поиск по нескольким тегам?

Есть база хранения сущностей (документов, изображение - не суть), у каждой сущности есть некий набор тегов. Например,
doc1 - tag1
doc2 - tag2
doc3 - tag3, tag4
doc4 - tag1, tag2, tag3

Ожидается, что сущностей будет несколько миллионов, уникальных тегов - предположительно, несколько сотен (возможно, тысячи).

Нужно организовать хранение и поиск по тегам так с учетом следующих условий:
- выдавать в результатах поиска, если совпал хотя бы 1 тег
- чем больше тегов совпало, тем выше в результатах поиска должна быть сущность
- нужна разбивка результата на страницы

Например, если задан поиск "tag1 tag3 tag5", то результат должен быть
doc4
doc1
doc3

Разумеется, первое, что напрашивается - это организация хранения many-to-many с промежуточной таблицей. Но не соображу, как с минимальными затратами получить нужный результат. Возможно, стоит посмотреть в сторону Sphinx или Elasticsearch, но не очень хочется поднимать дополнительный софт.

Может, будут у кого какие-то идеи, советы?

Вопрос задан более трёх лет назад
112 просмотров

10 комментариев

Подписаться 2 Средний 10 комментариев

Akina @Akina

Разумеется, первое, что напрашивается - это организация хранения many-to-many с промежуточной таблицей.

Ну первым-то напрашивается тип данных SET.

Написано более трёх лет назад
Вадим @vshemarov Автор вопроса

Akina, значение тегов заранее неизвестно, они могут быть какие угодно и будут добавляться по мере заполнения базы. Так что SET, увы, не катит

Написано более трёх лет назад
Akina @Akina

И чем неизвестный тег, формализованный в SET, отличается от столь же неизвестного тега, формализованного в таблице-справочнике?

Написано более трёх лет назад
Вадим @vshemarov Автор вопроса

Перечень значений в SET предопределен, список допустимых значений задается при создании таблицы, и, насколько помню, этих допустимых значений может быть не больше 64.

Новые теги будут добавляться в процессе работы, их будут сотни

Написано более трёх лет назад
FanatPHP @FanatPHP

Сфинкс здесь будет перебор.
Обычная группировка по артикул айди и сортриовка по каунт. Чем больше тегов тем больше каунт

Написано более трёх лет назад
FanatPHP @FanatPHP

Akina, вот не надо вот этого вот. Каким местом здесь сет-то? Чтобы новый тег добавить, делать alter table, серьёзно?
Здесь-то однозначно именно что маны-туманы.

Написано более трёх лет назад
Akina @Akina

FanatPHP,
Чтобы новый тег добавить, делать alter table, серьёзно?
Нафига на каждый-то? SET маппится на BIGINT, так что только на каждый 64-й. А если программно маппить его на блоб - то вообще никаких проблем с расширением. И по сути это ну ничем не отличатся от дополнительных таблиц - просто вместо двух таблиц (метаданных и связующей) появляется одна таблица метаданных. С той лишь разницей, что для SET tcnm специально прикормленные инструменты, а классический M:N - это постоянные группировки или динамический SQL.

Написано более трёх лет назад
FanatPHP @FanatPHP

Akina, тогда я видимо, что-то не знаю про SET
Но честно говоря вот это "BIGINT, так что только на каждый 64-й" звучит как китайская грамота.
это все про mysql?

Написано более трёх лет назад
batyrmastyr @batyrmastyr

FanatPHP, да, он про MySQL. Он предлагает для работы с 60 тегами заводить один столбец типа ENUM, а для 200 - 4 столбца.
Справочник тегов получится вида «тег, столбец в котором его искать», а фильтрация такой: FIND_IN_SET('тег 1', tags1) or FIND_IN_SET('тег 200', tags4).
Как будет выглядеть ранжирование и можно ли эту портянку ускорить индексами сходу не скажу.

Написано более трёх лет назад
Вадим @vshemarov Автор вопроса

Ожидается, что сущностей будет несколько миллионов, уникальных тегов - предположительно, несколько сотен (возможно, тысячи)

Сколько их будет - заранее неизвестно, и какие будут теги, тоже неизвестно, нет SET однозначно не вариант

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 94 просмотра
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 69 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 332 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 227 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 202 просмотра
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 215 просмотров
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 299 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 156 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 195 просмотров
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 437 просмотров
4

ответа
Показать ещё Загружается…

Разумеется, первое, что напрашивается - это организация хранения many-to-many с промежуточной таблицей.

Ну первым-то напрашивается тип данных SET.
Akina, значение тегов заранее неизвестно, они могут быть какие угодно и будут добавляться по мере заполнения базы. Так что SET, увы, не катит
И чем неизвестный тег, формализованный в SET, отличается от столь же неизвестного тега, формализованного в таблице-справочнике?
Перечень значений в SET предопределен, список допустимых значений задается при создании таблицы, и, насколько помню, этих допустимых значений может быть не больше 64.

Новые теги будут добавляться в процессе работы, их будут сотни
Сфинкс здесь будет перебор.
Обычная группировка по артикул айди и сортриовка по каунт. Чем больше тегов тем больше каунт
Akina, вот не надо вот этого вот. Каким местом здесь сет-то? Чтобы новый тег добавить, делать alter table, серьёзно?
Здесь-то однозначно именно что маны-туманы.
FanatPHP,
Чтобы новый тег добавить, делать alter table, серьёзно?
Нафига на каждый-то? SET маппится на BIGINT, так что только на каждый 64-й. А если программно маппить его на блоб - то вообще никаких проблем с расширением. И по сути это ну ничем не отличатся от дополнительных таблиц - просто вместо двух таблиц (метаданных и связующей) появляется одна таблица метаданных. С той лишь разницей, что для SET tcnm специально прикормленные инструменты, а классический M:N - это постоянные группировки или динамический SQL.
Akina, тогда я видимо, что-то не знаю про SET
Но честно говоря вот это "BIGINT, так что только на каждый 64-й" звучит как китайская грамота.
это все про mysql?
FanatPHP, да, он про MySQL. Он предлагает для работы с 60 тегами заводить один столбец типа ENUM, а для 200 - 4 столбца.
Справочник тегов получится вида «тег, столбец в котором его искать», а фильтрация такой: FIND_IN_SET('тег 1', tags1) or FIND_IN_SET('тег 200', tags4).
Как будет выглядеть ранжирование и можно ли эту портянку ускорить индексами сходу не скажу.
Ожидается, что сущностей будет несколько миллионов, уникальных тегов - предположительно, несколько сотен (возможно, тысячи)

Сколько их будет - заранее неизвестно, и какие будут теги, тоже неизвестно, нет SET однозначно не вариант

Как лучше организовать хранение и релевантный поиск по нескольким тегам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт