Как ускорить поиск несуществующих элементов в двусвязном списке?

Question

Ascard @Ascard

MongoDB

Как ускорить поиск несуществующих элементов в двусвязном списке?

Есть коллекция документов в Монге, представляющая собой простой двусвязный список, примерно такого вида:

Item {
  _id: number,
  _prev: number | null,
  _next: number | null,
   // все остальные поля
}

Поля _next и _prev, соответственно, содержат _id cвязанных записей, или null для первой и последней записи.
Коллекция, по мере надобности, заполняется кусками из внешнего источника, поэтому документа на _id которого ссылается _prev или _next может не быть в коллекции.
Задача: найти такие документы для их дозагрузки в коллекцию, то есть те на которые есть указание в _prev или _next у одного из документов, но их самих нет в базе.
Коллекция уже довольно большая (500к+ документов) и будет расти, а решение полным перебором - для каждой записи _prev/_next проверить наличие документа, работает десятки секунд уже сейчас, что неприемлемо долго.

Как это можно ускорить? Индексы давно созданы, шардов базы нет и не будет.

Пытался решить проблему используя агрегатор

db.items.aggregate([
  { $lookup: {
      from:         "items",
      localField:   "_prev",
      foreignField: "id",
      as:           "prev"
  }},
  { $match: {
      "prev": {$size: 0}
  }}
],{
  allowDiskUse: true
});

Со своей задачей он справляется, но опять же - долго.

По идее, как я понимаю, задача сводится к простому поиску пересечения между массивом со всеми _prev/_next и массивом со всеми _id.
Но кроме как использовать db.collection.distinct() чтобы достать из базы одним массивом значения конкретного поля из всех документов, я не нашёл.
А с ним проблема в том что работает он не быстрее решения полным перебором или решения с агрегатором.

Вопрос задан более трёх лет назад
197 просмотров

2 комментария

Подписаться 3 Простой 2 комментария

Помогут разобраться в теме Все курсы

Merion Academy

MongoDB для разработчиков и DevOps

4 месяца

Далее
Нетология

Разработчик на Python совместно с МФТИ

7 месяцев

Далее
Академия Эдюсон

FullStack-разработчик: тариф PRO

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MongoDB

Простой
Как получить записей содержащих нужное значение в массиве?
- 1 подписчик
- 18 дек. 2025
- 79 просмотров
1

ответ
Python

+1 ещё

Простой
Как искать primary в реплике Монги?
- 1 подписчик
- более года назад
- 134 просмотра
0

ответов
Python

+2 ещё

Простой
Как использовать pymongo асинхронно?
- 1 подписчик
- более года назад
- 260 просмотров
1

ответ
Node.js

+2 ещё

Средний
Почему иногда отваливается volume в mongo docker compose?
- 4 подписчика
- более года назад
- 348 просмотров
0

ответов
MongoDB

Простой
Как оптимизировать мой запрос mongodb к огромной коллекции?
- 1 подписчик
- более года назад
- 153 просмотра
0

ответов
MongoDB

+1 ещё

Средний
Почему падает Graylog при недоступности одной из нод MongoDB?
- 1 подписчик
- более года назад
- 129 просмотров
1

ответ
MongoDB

Простой
Как ограничить подключение к MongoDB?
- 1 подписчик
- более года назад
- 127 просмотров
1

ответ
MongoDB

Простой
Что делать, если mongodb обрезает числа?
- 1 подписчик
- более года назад
- 115 просмотров
0

ответов
Python

+1 ещё

Простой
Pymongo как добавлять значение в список и удалять его?
- 1 подписчик
- более года назад
- 149 просмотров
0

ответов
MongoDB

Простой
Почему mongodb_exporter не выдает нужные метрики?
- 1 подписчик
- более года назад
- 60 просмотров
0

ответов
Показать ещё Загружается…

документа на _id которого ссылается _prev или _next может не быть в коллекции.

Тогда откуда взялся этот _id?
ComodoHacker, прилетает из внешнего источника, вместе с остальным содержимым.
Я же написал - документы в базу догружатся по мере необходимости. Ленивая такая коллекция получается. То есть в списке возможны пустоты. Вот для их выявления и нужно находить такие недозагруженные документы.

Answer 1 · 2021-05-20 08:04:35

Могу предложить два решения.

После записи документа проверять наличие в коллекции _prev и _next, и отсутствующие записывать в отдельную коллекцию. Тогда потом искать их не придется, они будут уже собраны в отдельной коллекции.
В _id документа не класть внешний идентификатор, как вы делаете сейчас, а генерировать внутренний. А внешний сохранять в отдельном поле, по которому построить индекс. Так же поступать и с _prev и _next. При записи документа нужно искать его _prev и _next по внешним идетнификаторам, и если найдены, проставлять внутренние.

Для поиска отсутствующих документов нужно будет проскаинровать всю коллекцию и выбрать те внешние id из _prev и _next, для которых не заполнены внутренние _id.

Как ускорить поиск несуществующих элементов в двусвязном списке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт