Как правильно сделать облако тегов с MongoDB?

Question

Андрей Хохлов @andrhohlov

Как правильно сделать облако тегов с MongoDB?

Кейс примерно следующий:

1. Есть n пользователей, каждый может размещать документы
2. К каждому посту пользователь может добавлять теги
3. Пользователи между собой не пересекаются, работают каждый со своими документами

Документ (без лишних полей):

{
  userId: ObjectId('...'),
  tags: ['foo', 'bar', 'baz']
}

4. Пользователь заходит на страницу со списком своих документов. Допустим выводятся первые 10, а у него их 100, есть пагинатор.
5. На этой же страницы выводится облако тегов со всеми тегами (или фильтр постов по тегам), без дублей. То есть, если бы у нас было два документа, один с тегами 'foo' и 'bar', второй - с тегами 'bar' и 'baz', то вывелось бы 'foo, bar, baz'.

Какие я вижу варианты:

1. Можно доставать из базы все документы, собирать массив тегов и выкидывать из него дубли. Возможно стоит кэшировать результат такой выборки (куда?).

2. Можно не сохранять теги в документ, а хранить их в отдельной коллекции

{
  userId: ObjectId('...'),
  tags: [ObjectId('...'), ObjectId('...')]
}

Но это ведь уже MySQL получится.

Как решить такую задачу правильно?

Вопрос задан более трёх лет назад
315 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Merion Academy

MongoDB для разработчиков и DevOps

4 месяца

Далее
Нетология

Разработчик на Python совместно с МФТИ

7 месяцев

Далее
Академия Эдюсон

FullStack-разработчик: тариф PRO

14 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

11 комментариев

Андрей Хохлов @andrhohlov Автор вопроса

Спасибо за ваш ответ, но вопрос не про то, как смержить массив, выкинув дубликаты)

Написано более трёх лет назад
ой всё @AnneSmith

Андрей Хохлов, а что про что еще? кэш?
добавьте юзеру еще одно поле "список всех тэгов" и при каждом обновлении документа его обновляйте
а потом он у вас всегда будет наготове хоть для облака, хоть для подсказок

пысы: кстати, если люди, старающиеся вам помочь не угадали траектории полета вашей глубокой мысли с первой попытки, вы можете просто вежливо уточнить, что именно вы хотели узнать

Написано более трёх лет назад
Андрей Хохлов @andrhohlov Автор вопроса

AnneSmith, мне жаль, что мой комментарий вас задел, я ни в коем случае не хотел проявить невежливость или обидеть вас.

Вопрос создан именно в поисках лучшей практики для решения подобной задаче.
У нас с вами, если я правильно понял, опыта примерно по нулям. Ну может у меня даже чуть больше, так как я уже немного добрался до монги.

Очевидное решение с кэшем, я сразу указал на него и рад что наши мнения совпадают. Но это теория, если верная - хочется ещё услышать подтверждение от более опытных коллег.
Там же наверняка есть подводные камни.
Я могу попробовать (уже) и оно будет работать. Но у меня нет реального проекта с тысячами запросов, пользователей и документов, чтобы проверить на нем.

Может вообще есть другой способ решения задачи.
db.documents.createTagsCloud() какой-нибудь

Написано более трёх лет назад
ой всё @AnneSmith

Андрей Хохлов, а то есть вы решили, что у меня нет опыта разработки? :)
окау

Написано более трёх лет назад
nofuture trustnoone @doubledare

Андрей Хохлов, python имеет тип данных множества - set, если вы можете мигрировать теги в другую коллекцию и нужно убрать дубликаты, то тут вам поможет пайтон.
1. Вытягиваете теги из всех записей, получится список тегов.
2. Магия list(set(yourtags_list)) и у вас список уникальных тегов.
3. Далее делаем insert_many в монгу и все.

Можно мигрировать и на другом языке, там тоже наверно можно как-то найти или тип множества или алгоритм отбора уникальных значений.

Написано более трёх лет назад
Андрей Хохлов @andrhohlov Автор вопроса

AnneSmith, вы сами написали:
я до монго еще как-то не добралась,

Но это уже совсем не относится к теме.

Алексей Овдиенко, и в Javascript тоже есть Set (в ES6). Вопрос в другом - как это (получение такого списка тегов) правильно делать с монгой, в какой момент собирать эти теги, где хранить их кэш, когда его обновлять и т.д. и т.п. В идеале бы реальный пример реального использования, где все это работает именно таким образом потому что так правильнее/лучше/быстрее чем другим.

Написано более трёх лет назад
ой всё @AnneSmith

Андрей Хохлов, вы ждали, что за вас погуглят :) вы бы так и писали :)

Написано более трёх лет назад
nofuture trustnoone @doubledare

Андрей Хохлов,
Так вроде бы ж ответили на вопрос - как делать в монге.
Коллекция "теги" в ней живут все уникальные теги. В других коллекциях где реально должна быть связь с тегом - objectid тега или список.
Собирать теги - когда юзер создает новые. Т.е. при сохранении - проверять есть ли такой в монго, если нет - на запись. А вообще, на форме редактирования документа будет поле выбора тега с автозаполнением. input onchange - искать в монге по названию тег.
Кэш хранить в редисе, обновлять кэш - в зависимости от частоты записи.

Написано более трёх лет назад
ой всё @AnneSmith

Алексей Овдиенко, похоже, ожидали готовый и стопроцентно работающий код :)

Написано более трёх лет назад
Ptolemy_master @Ptolemy_master

AnneSmith, вам не надоело троллить автора поста?

Написано более трёх лет назад
ой всё @AnneSmith

Ptolemy_master, а я разве с автором разговариваю?

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MongoDB

Простой
Как получить записей содержащих нужное значение в массиве?
- 1 подписчик
- 18 дек. 2025
- 79 просмотров
1

ответ
Python

+1 ещё

Простой
Как искать primary в реплике Монги?
- 1 подписчик
- более года назад
- 134 просмотра
0

ответов
Python

+2 ещё

Простой
Как использовать pymongo асинхронно?
- 1 подписчик
- более года назад
- 260 просмотров
1

ответ
Node.js

+2 ещё

Средний
Почему иногда отваливается volume в mongo docker compose?
- 4 подписчика
- более года назад
- 348 просмотров
0

ответов
MongoDB

Простой
Как оптимизировать мой запрос mongodb к огромной коллекции?
- 1 подписчик
- более года назад
- 153 просмотра
0

ответов
MongoDB

+1 ещё

Средний
Почему падает Graylog при недоступности одной из нод MongoDB?
- 1 подписчик
- более года назад
- 129 просмотров
1

ответ
MongoDB

Простой
Как ограничить подключение к MongoDB?
- 1 подписчик
- более года назад
- 127 просмотров
1

ответ
MongoDB

Простой
Что делать, если mongodb обрезает числа?
- 1 подписчик
- более года назад
- 115 просмотров
0

ответов
Python

+1 ещё

Простой
Pymongo как добавлять значение в список и удалять его?
- 1 подписчик
- более года назад
- 149 просмотров
0

ответов
MongoDB

Простой
Почему mongodb_exporter не выдает нужные метрики?
- 1 подписчик
- более года назад
- 60 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2017-09-05 01:30:18

Я бы сделала так.
Страница со списком документов загружается как обычно, попутно подгружается список тэгов, который хранится как обычный массив строк, привязанный к профилю пользователя, сформированный как описано в вашем варианте номер 1. (Делать отдельную коллекцию для простых списков смысла не вижу, всегда лучше начинать с минимизации сущностей - бритва Оккама, ага :)
Когда мы загружаем страницу со списком, идет подгрузка тэгов. Все последующие обращения к другим страницам делаются асинхронно, следовательно, облако тэгов больше загружать не надо.
Я не знаю, что вы используете на клиенте, я работаю плотно с Angular, поэтому говорить могу только про него.
Технически это было бы сделано так - маршрут для списка документов прописан на сервере, идет возврат клиенту профиля со списком тэгов. А маршруты ангуляра содержат обращения к страницам. В случае первичной загрузки идет запрос на страницу номер 1 (как resolver для этого маршрута), последующие вызовы - просто асинхронно к выборке соответствующей страницы.

Добавление.
Автор поста задал дополнительный вопрос. Вы спрашивали, когда обновлять список. Вопрос не такой просто и очевидный. В идеальном варианте облако тэгов должно обновляться сразу же как только пользователь добавил или изменил существующие тэги. Если хотите реализовать именно эту функциональность, то можно сделать через сокеты (новый список тэгов посылается клиенту в браузер, это не сложно на самом деле). Другой вариант - отслеживать на сервере при сохранении документа, изменился ли список тэгов, и, если да, в ответе отправлять обновленный список и его на клиенте обновлять. Тоже ничего вариант, по-моему.

Answer 2 · 2017-09-04 07:46:34

я до монго еще как-то не добралась, но с json работала достаточно, я бы не делала отдельную коллекцию тэгов, потому что пользователи не пересекаются

погуглите "merge arrays remove duplicates" для вашего языка программирования

Как правильно сделать облако тегов с MongoDB?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт