MongoDB (сравнение массивов, агрегация, большие количество данных)?

Question

livemirsi @livemirsi

MongoDB (сравнение массивов, агрегация, большие количество данных)?

Добрый день. Обдумываю структура проекта. На входе имеем базу mongodb (рассмотрел бы и другие бд, но монга очень понравилась). Вообщем в коллекции есть документы, покажу 3 поля, ибо остальные просто доп.инфа, не для расчетов.
{
id: ....
name: ......
properties: [1, 2, 4, 5, ....] - до 100 значений в массиве, значения цифры.
}
Буду брать с базы нужные мне записи по свойствами, которые хранятся в массив в поле:
db.collect.find({"properties": {$all:[1,3,5, 100]}})
Вроде всё здорово, могу брать маленькими пачками, скажем по 50 документов, отдавать их клиенту.
Но есть загвоздка, мне нужно не просто получить список документов по свойствам. А провести еще аналитику массива свойств у всех документов.
Думаю использовать два запроса к бд:
1. db.collect.find({"properties": {$all:[1,3,5, 100]}}) - получаю нужную мне пачку доков, по их свойствам. Ограничу выбору в 50 документов.
2. Тут вся загвоздка, мне на выходе надо получить оценку всех массивов у документов, а именно узнать какие значения сколько раз встречались в различных документах, по типу
1 - встречалось в поле properties 350 раз
2 - встречалось в поле properties 100 раз
Пока не понимаю, как сделать такую операцию, копаю в строну агрегации, но не уверен что смогу добиться нужного мне результата.
Есть еще момент, 2 запрос, он не должен иметь ограничений в выборки, то есть если отправим
db.collect.find({"properties": {$all:[1]}}) можем получить 10-20 000 а можем и больше документов в которых нужно узнать какие значения из поля properties дублируются во всех документах и сколько ра.
Посоветуйте как можно решить такую проблему, стоит ли копать дальше в агрегацию или подумать еще над чем то?

UPD:
Задачу решил, оказалось всё просто:

db.collect.aggregate(
{$match: {parameters: {$all: [4,2]}}},
{$unwind:{path:"$parameters"}}, 
{$project:{parameters: true, count: {$add: [1]}}}, 
{$group: {_id: "$parameters", dublicate:{$sum:"$count" } }}
)

match - делают нужную выбору документов
unwind - разворачивает массив параметров
project: сохраняем только поле параметров, добавляем ему поле count, что бы посчитать было проще
group - группируем и складываем count
В итоге, имеем количество повторений элементов массивов в нужно нам выборки.
Правда в нее попадают и элементы, по которым изначально выборку ограничивали, но это не страшно, их убрать можно в обработке самого приложения.

Не уверен в производительности данного решения, буду тестить.

Вопрос задан более трёх лет назад
2769 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Merion Academy

MongoDB для разработчиков и DevOps

4 месяца

Далее
Нетология

Разработчик на Python совместно с МФТИ

7 месяцев

Далее
Академия Эдюсон

FullStack-разработчик: тариф PRO

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

3 комментария

livemirsi @livemirsi Автор вопроса

Если имеете виду перебирать всю базу по свойствам и хранить количество документов в которых встречается, то такой метод увы не подойдет. Такой вот запрос
db.collect.find({"properties": {$all:[1,2,3]}})
создаст уникальное количество документов, в котором уже надо считать повторения.

Написано более трёх лет назад
lega @lega

Необязательно перебирать,
А сколько пропретей в базе?

Т.е. нужно не все количество, а там где вес проперти в запросе присутствуют? как облако тегов?

Написано более трёх лет назад
livemirsi @livemirsi Автор вопроса

Ну типо того, каждый документ содержит различные properties записанные в виде цифр в массивы в поле properties. Само количество properties в принципе не важно, но я думаю не более 100 их будет. Каждый документ может хранить разное количество свойств. Я начал копать в строну агрегации, типа делаем math и указываем какие цифры должны быть ($all) в массиве в поле properties, а дальше уже как то надо посчитать их совпадения во всех документах, которые получаем при условие math. Можно конечно пойти другим путем, хранить свойства не массиве в одном field, а хранить каждое свойство в отдельном field, при такой схеме тоже не придумал как посчитать совпадения( Да и увеличивать документ не хотелось бы в размерах.

Написано более трёх лет назад

11 комментариев

livemirsi @livemirsi Автор вопроса

Вся фишка что в вашем примере мне количество повторений 1,2,3 не нужно, нужные остальные свойства, если оно сколько кто повторяется. forEach вы почему имеете виду пройтись?) я пока не представляю как массив в group представить)

Написано более трёх лет назад
pomeo @pomeo

livemirsi: forEach отваливается, у group есть возможность count: { $sum: 1 } поставить. Поэтому aggregation + match + group решает вашу задачу

Написано более трёх лет назад
livemirsi @livemirsi Автор вопроса

Немного не понимаю что мне даст сумма массивов в group)Подскажите плиз?

Написано более трёх лет назад
pomeo @pomeo

livemirsi: я смотрю ваш вопрос, там вы пишете что дёргаете документы db.collect.find({"properties": {$all:[1,3,5, 100]}})
Дальше вам надо узнать сколько раз встречается 100, правильно?

Написано более трёх лет назад
livemirsi @livemirsi Автор вопроса

db.collect.find({"properties": {$all:[1,3,5, 100]}}), но мне 1,3,5,100 не интересны, так как если придет ответ, есть что показать, мне интересны 4,6,7,8,8...99 если они есть в массиве в properties, то узнать сколько они раз повторяются в данной выборке.

Написано более трёх лет назад
pomeo @pomeo

livemirsi: тогда не пойму, что вам мешает сразу сделать db.collect.count по [4,6,7,8,8...99].
Или вы имеете ввиду сколько раз например 8 встречается в одном properties и сколько таких документов?

Написано более трёх лет назад
livemirsi @livemirsi Автор вопроса

Да мне нужно знать сколько 8 и другие, которые в основной запрос не вошли и узнать сколько раз повторяются. Могу по другому логику представит, юзер запрашивает, покажите мне документы с свойствами 1,5,9,30,99, приложение показывает, но так же приложение должно предложить еще свойства, по которым он еще глубже может сузить выбору документов. Я смог алгоритм представить в таком виде, берем то что спрашивает юзер, показываем, заодно считает совпадения свойств в тех документах, которые показали (не берем те свойства по которым спрашивали, так их и так уже показали), за счёт анализа повторения, дабы предложить, только то что может еще сузить, а не показать пустой результат. Конечно, можно попробовать обработать все пачку в самом приложение (nodejs), но если вдруг выборка будет в 30 000 -40000 документов, то боюсь будут большие проблемы. База справиться лучше, как я думаю.

Написано более трёх лет назад
pomeo @pomeo

livemirsi: я понял, это что-то из серии "а ещё с этим товаром ищут эти товары"

Написано более трёх лет назад
livemirsi @livemirsi Автор вопроса

Да да, вот только как это реализовать используя большие выборки документов.

Написано более трёх лет назад
pomeo @pomeo

livemirsi: такое я не делал, особо не подскажу

Написано более трёх лет назад
livemirsi @livemirsi Автор вопроса

Да я уже понял, мне бы хотя бы направления для поиска решений, с монгой работаю недели 2, очень понравилась, поэтому хочу именно ее использовать,

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MongoDB

Простой
Как получить записей содержащих нужное значение в массиве?
- 1 подписчик
- 18 дек. 2025
- 78 просмотров
1

ответ
Python

+1 ещё

Простой
Как искать primary в реплике Монги?
- 1 подписчик
- более года назад
- 133 просмотра
0

ответов
Python

+2 ещё

Простой
Как использовать pymongo асинхронно?
- 1 подписчик
- более года назад
- 258 просмотров
1

ответ
Node.js

+2 ещё

Средний
Почему иногда отваливается volume в mongo docker compose?
- 4 подписчика
- более года назад
- 347 просмотров
0

ответов
MongoDB

Простой
Как оптимизировать мой запрос mongodb к огромной коллекции?
- 1 подписчик
- более года назад
- 152 просмотра
0

ответов
MongoDB

+1 ещё

Средний
Почему падает Graylog при недоступности одной из нод MongoDB?
- 1 подписчик
- более года назад
- 128 просмотров
1

ответ
MongoDB

Простой
Как ограничить подключение к MongoDB?
- 1 подписчик
- более года назад
- 126 просмотров
1

ответ
MongoDB

Простой
Что делать, если mongodb обрезает числа?
- 1 подписчик
- более года назад
- 114 просмотров
0

ответов
Python

+1 ещё

Простой
Pymongo как добавлять значение в список и удалять его?
- 1 подписчик
- более года назад
- 148 просмотров
0

ответов
DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- более года назад
- 111 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2016-03-01 23:00:59

1 - встречалось в поле properties 350 раз
2 - встречалось в поле properties 100 раз

Для этого можно держать кеш: {_id: 1, count: 350}

db.collect.find({"properties": {$all:[1]}})
Когда элемент один, лучше так:
db.collect.find({"properties": 1})

Answer 2 · 2016-03-02 09:29:57

Aggregation вам в любом случае немножко задачу упростит.
Например у вас 100000 документов с [1,2,3], вы делаете match: {$all:[1,2,3]}, дальше group по 1 например. И у вас остаётся один документ. Вот как посчитать потом оптимизированно, что документ один например с ходу не вижу. Можно конечно пройтись встроенным в монгу forEach по выдачем после group и сделать db.collect.count, но это не красиво, хотя задачу решает.

MongoDB (сравнение массивов, агрегация, большие количество данных)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт