Создание теговой системы

Question

Антон Медведев @Elfet

Базы данных

Создание теговой системы

Интересует какие инструменты лучше всего применить для создания теговой системы?
Допустим у меня есть база постов и укажого поста список тегов. И есть запрос содержащий несколько тегов. Нужно найти наилучшее соответствие.
Пример:
Данные:

{'post': '...', tags: ['foo', 'boo', 'goo', 'doo', 'too']}
{'post': '...', tags: ['boo', 'goo', 'too']}
{'post': '...', tags: ['foo', 'too']}
{'post': '...', tags: ['doo', 'too']}
{'post': '...', tags: ['too']}
....

Запрос: {tags: ['boo', 'too']}
Ответ:

{'post': '...', tags: ['boo', 'goo', 'too']}
{'post': '...', tags: ['foo', 'boo', 'goo', 'doo', 'too']}  
{'post': '...', tags: ['too']}
{'post': '...', tags: ['foo', 'too']}
{'post': '...', tags: ['doo', 'too']}
....

Вопрос задан более трёх лет назад
3228 просмотров

Комментировать

Подписаться 8 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

5 комментариев

Антон Медведев @Elfet Автор вопроса

Спасибо вам за вашу работу!

Но это жутко смотрится!

Написано более трёх лет назад
DenKrep @DenKrep
А что жуткого? Структура правильная. Запрос чтобы получить список post_id, в которых есть запрошенные теги будет выглядеть проще:

SELECT pt.post_id FROM post_tag pt, tag t WHERE t.tag_id = pt.tag_id AND t.tag IN ('tag_1','tag_3') GROUP BY pt.post_id HAVING COUNT(*) = 2; -- где 2 = количество тегов, по которому ищем. -- написано в оракловой нотации - в других диалектах может чуть видоизменится

Более сложные пожелания, потребуют более сложных запросов, конечно, но ничего сверх-сложного.
В том что написал copist ничего страшного нету — он просто ещё дополнительно посчитал у выбранных статей сколько ещё «других» тегов проставлено и выбрал первыми те, у которых дополнительных тегов меньше.
Написано более трёх лет назад
Антон Медведев @Elfet Автор вопроса

Я просто никогда не составлял таких сложных запросов, видимо поэтому он мне жутким показался.

А насколько быстро будет работать такой запрос (copist-а)?

Написано более трёх лет назад
Павел Волынцев @copist

map-reduce на Mongo будет не менее интересным. Пример привести пока не могу, нет инструментов под рукой

Написано более трёх лет назад
Антон Медведев @Elfet Автор вопроса

MapReduce будет делать полный перебор. Так что этот вариант не подходит. Нужно выдавать ответ максимально быстро.

Написано более трёх лет назад

4 комментария

Антон Медведев @Elfet Автор вопроса

База пока только планируется. SQL или NoSQL без разницы. Тегов может быть огромное количество. Мне нужно не пересечение, а наилучшее совпадение. Можно конечно использовать для этого MapReduce, но не охота выполнять перебор всех записей.

Написано более трёх лет назад
DenKrep @DenKrep

MapReduce сейчас настолько на слуху, что его еспользуют в тему и не в тему :)
Что в вашей вселенной «огромное»? Миллиарды записей? Сотни миллиардов? Можно уточнить порядок? В целом сотни миллионов записей в связке спокойно выдержит реляционка с индексами. В худшем случае прийдётся добавить партиционирование. До десятков миллионов даже партиционировать не обязательно.

Ну и, ещё, рекомендую на Хабре поискать статью о том, как реализовывался сервис поисковых подсказок портала prom.ua. Хоть тема и немного другая, но суть, мне кажется, вам подойдёт. Они как раз беспокоились подобными вопросами (создание прямого и обратного индекса, уменьшение его размеров, ускорение работы этого инструмент), уход от прохода всех записей итд. Не думаю что мне стоит повторятся — даже если вам и не подойдёт их опыт, думаю на определённые мысли направит.

Написано более трёх лет назад
Антон Медведев @Elfet Автор вопроса

Немогу найти сиатью которую вы упоминаете. Можете мне помочь?
Под MapReduce, я в данно случае иммел ввиду полный перебор.
База в районе 100GB.

Написано более трёх лет назад
Антон Медведев @Elfet Автор вопроса

Полный перебор меня конечно же не устраивает, и я вот ищу инструменты для создания какого-либо индекса, или статей описывающих как такой можно построить?

Написано более трёх лет назад

4 комментария

DenKrep @DenKrep

А какой метод реализации полнотекстового поиска предлагаете использовать? Уверены что быстрее (и проще) будет? С учётом того, что человек спрашивает про базу всего то на 100Гб.

Написано более трёх лет назад
SiDChik @SiDChik

Ну можно и sphinx прицепить ко всему этому безобразию, почему нет?

Написано более трёх лет назад
DenKrep @DenKrep

Ну… потому что это всё равно, что с кувалбой бегать за мухами, нет? Может, для мух взять мухобойку?
Из той же серии я предлагал продукты основанные на Lucene — но это скорее для индексации самих документов.
А чтобы проиндексировать уже структурированные данные, мне кажется обычной реляционки хватит выше крыши.
Просто прикинем, база у ТС — 100 Гб. Там хранятся статьи. Не знаю каких размеров — не признаётся ;) Предположим, средний рзамер статьи около 10Кб. Несложными арифметическими выражениями получается приблизительно 10 миллионов строк. Для обычного b-tree индекса это не так уж много, скажем честно. У нас в системах за день, бывало, больше загружалось данных.
Ок, скажем на каждую статью у него будет до 100 миллионов строк. Снова таки — не предел. В крайнем случае можно сделать партиционирование по hash(tag_id) и раскидать на несколько партиций. И то, не факт что понадобится.

Но, даже если человек захочет городить свой велосипед, или использовать nosql-базы, то я ему привёл пример как это несложно реализовать. Зачем ради поиска по ключу по структурированным данным прикручивать инструмент полнотекстового поиска? Так недолго и открытую версию поискового engine гугла прикрутить.

Написано более трёх лет назад
Антон Медведев @Elfet Автор вопроса

Как я понял мне подойдёт простой инвертированный индекс. Думаю реализовать на MongoDB.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 3 подписчика
- 10 июл.
- 255 просмотров
1

ответ
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 307 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 293 просмотра
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 173 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 165 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 120 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 306 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 244 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 251 просмотр
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 285 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2013-10-03 21:08:19

1) Извиняюсь, ошибся. Я не на хабре эту статью видел. Вот здесь была она: dou.ua/lenta/articles/suggester/
2) Да, MapReduce имеет как следствие полный перебор источника данных. Это один из недостатков. Но действительно ли вам нужна технология основанная map-reduce? Есть большие сомнения.
3) 100 ГБ это не очень большая база на сегодняшний день, скажем откровенно. Бывают базы-справочники (MDM) в десятки раз больше. Тем более если вы в базе храните сами документы, то это может быть даже мало.
3.1) Сколько строк планируется в таблице (списке) статей.
3.2) Сколько уникальных тегов ожидаете
3.3) Сколько, в среднем, к одной статье привязано тегов?
Если ответ — миллионы / десятки миллионов, то рядовая реляционка спокойно потянет ваши запросы за доли секунд.
4) Статей — множество. Описаний алгоритмов индексации — тоже. Один из примеров — ссылка в п.1 этого сообщения. Но уверенны что хотите изобретать велосипед и хотите самостоятельно создавать такой индекс?
5) PS: кстати, если вам нужно будет индексировать сами документы, то тут уже стоит посмотреть на какие-нибудь продукты основанные на Lucene (Solr, elastic search, ...). Но это уже совсем другая песня :)

Answer 2 · 2013-10-04 12:57:47

CREATE TABLE POST (
  ID DECIMAL(20,0), -- AUTOINCREMENT
  CONTENT VARCHAR2(1024)
);

CREATE TABLE TAG (
  ID DECIMAL(20,0), -- AUTOINCREMENT
  TAG VARCHAR2(100)
);

CREATE TABLE POST_TAG (
  POST_ID DECIMAL(20,0),
  TAG_ID DECIMAL(20,0)
);
-- FOREIGN KEY FK_POST_TAG_POST ON POST(ID);
-- FOREIGN KEY FK_POST_TAG_TAG ON TAG(ID);

CREATE UNIQUE INDEX UQ_POST ON POST(ID);
CREATE UNIQUE INDEX UQ_TAG ON TAG(ID);
CREATE INDEX IDX_POST_TAG ON POST_TAG(POST_ID, TAG_ID);
CREATE INDEX IDX_POST_TAG_R ON POST_TAG(TAG_ID, POST_ID);

INSERT INTO TAG(ID, TAG) VALUES(1, 'foo');
INSERT INTO TAG(ID, TAG) VALUES(2, 'boo');
INSERT INTO TAG(ID, TAG) VALUES(3, 'goo');
INSERT INTO TAG(ID, TAG) VALUES(4, 'doo');
INSERT INTO TAG(ID, TAG) VALUES(5, 'too');

INSERT INTO POST(ID, CONTENT) VALUES(1, '...');
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(1, 1 /* foo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(1, 2 /* boo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(1, 3 /* goo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(1, 4 /* doo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(1, 5 /* too */);

INSERT INTO POST(ID, CONTENT) VALUES(2, '...');
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(2, 2 /* boo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(2, 3 /* goo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(2, 5 /* too */);

INSERT INTO POST(ID, CONTENT) VALUES(3, '...');
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(3, 1 /* foo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(3, 5 /* too */);

INSERT INTO POST(ID, CONTENT) VALUES(4, '...');
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(4, 4 /* doo */);
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(4, 5 /* too */);

INSERT INTO POST(ID, CONTENT) VALUES(5, '...');
INSERT INTO POST_TAG(POST_ID, TAG_ID) VALUES(5, 5 /* too */);


SELECT POST.ID, TAG.TAG
FROM POST, TAG, POST_TAG
WHERE POST.ID = POST_TAG.POST_ID AND TAG.ID = POST_TAG.TAG_ID
ORDER BY POST.ID, TAG.ID;


SELECT DISTINCT ID, POST_TAG_COUNT, POST_TAGS_MATCHED_COUNT, POST_TAG_COUNT - POST_TAGS_MATCHED_COUNT POST_TAGS_EXTRA
FROM (
  SELECT
    POST.ID,

    ( -- количество тегов всего
      SELECT COUNT(POST_TAG.TAG_ID) CNT
      FROM POST_TAG
      WHERE POST_TAG.POST_ID = POST.ID
    ) POST_TAG_COUNT,

    ( -- количество найденных по точному совпадению
      SELECT COUNT(POST_TAG.TAG_ID) CNT
      FROM POST_TAG
      JOIN TAG ON POST_TAG.TAG_ID = TAG.ID
      WHERE TAG.TAG IN ('boo', 'too') AND POST_TAG.POST_ID = POST.ID
    ) POST_TAGS_MATCHED_COUNT
  FROM POST
  JOIN POST_TAG ON POST_TAG.POST_ID = POST.ID
  JOIN TAG ON TAG.ID = POST_TAG.TAG_ID
  WHERE TAG.TAG IN ('boo', 'too')
)
WHERE POST_TAGS_MATCHED_COUNT > 0
ORDER BY POST_TAGS_MATCHED_COUNT DESC, POST_TAG_COUNT - POST_TAGS_MATCHED_COUNT ASC;

Смысл запроса на выборку:

Найти общее количество тегов у постов и количество совпавших тегов, вывести в порядке убывания количества совпадений, затем в порядке возрастания «лишних тегов».

Если нужен вывод именно в таком порядке, то практически полный перебор

Базы в 100 гигов текста тоже под рукой пока нет. Не замерял. Вес (оценка сложности исполнения) запроса с индексами небольшой, вполне возможно — миллисекунды.

Это только поиск ID постов.

И надо на всякий случай лимит на запрос поставить.

Answer 3 · 2013-10-03 18:18:26

Насколько большой объём данных? Какие-то специфические требования к систему есть? Т.к. если нету каких-то особенных требований, но, судя по задаче, уже есть некоторая БД, где это уже хранится, то просто введение таблицы связки (многие ко многим между таблицами постов и тегов) позволит реализовывать то, что вы хотите.Если, конечно, сейчас оно хранится в реляционной БД. Если сейчас ваши посты хранятся в парах ключ-значение, то можете почитать про прямые и обратные индексы:
По сути хранить с постами список тегов (или указателей для оптимизации), к которым принадлежит статья, а также хранить теги у которых храним статьи которые к ним принадлежат типа так:
posts (
{post1: tags [1,2]};
{post2: tags[2,3]}
)
tags(
{tag1: posts[1]}
{tag2: posts[1,2]}
{tag3: posts[2]}
)
При выполнении поискового запроса вам останется только найти пересечения множеств из выбранных тегов.

Answer 4 · 2013-10-04 09:43:40

использовать теги в полнотекстовом поле, выполняя поиск по этому полю отсортировать по релевантности?

Создание теговой системы

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт