Как отбрасывать дубликаты при записи в mongoDB?

Question

rockwell323 @rockwell323

Как отбрасывать дубликаты при записи в mongoDB?

Здравствуйте, в общем такая ситуация, написал код, который ежеминутно скачивает csv БД, парсит ее и записывает нужные мне данные по нужной модели в коллекцию mongoDB в итоге записывает более 40к обьектов при первом записи, так как csv БД на стороннем сайте обновляется ежеминутно, что то новое добавляется в нее , приходится качать ее ежеминутно, парсить и записывать её снова и снова в коллекцию mongoDB из-за чего ее объем растет в арифметической прогрессии(40к -80к-120к и т.д.) и соответственно появляются дубликаты.
Вопрос заключается в том, как мне при последующих записях в mongoDB отбрасывать дубликаты, которые уже существуют в моей коллекции, чтобы записывались только новые объекты, которых еще нет в моей коллекции?
Пытаюсь сравнивать две БД уже существующую и новую, второй день попыток, пока что результатов не принесло(

Вопрос задан более трёх лет назад
288 просмотров

2 комментария

Подписаться 1 Сложный 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее
Яндекс Практикум

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 16 нояб.
- 177 просмотров
3

ответа
JavaScript

+2 ещё

Простой
Как получить события VK.VideoPlayer используя JS?
- 1 подписчик
- 11 нояб.
- 118 просмотров
1

ответ
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 245 просмотров
2

ответа
JavaScript

+1 ещё

Сложный
Почему зависает виджет в OBS?
- 1 подписчик
- 10 нояб.
- 164 просмотра
0

ответов
JavaScript

Простой
Смещение группы в fabric.js?
- 1 подписчик
- 06 нояб.
- 129 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 224 просмотра
1

ответ
JavaScript

Простой
Как создать рисунок из PHP в Fabric.js?
- 2 подписчика
- 28 окт.
- 173 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Какой скрипт загружает меню в Ютуб?
- 2 подписчика
- 27 окт.
- 295 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 421 просмотр
3

ответа
JavaScript

Простой
Как работать с разрозненными данными?
- 1 подписчик
- 21 окт.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 200 000 до 300 000 ₽

Web-разработчик/WordPress программист (Full-stack)

JustBusiness • Санкт-Петербург

от 130 000 до 150 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

использовать не insert, а update или rplaceOne с upsert: true
Поменял insert на update, тот же результат, не помогло.

Answer 1 · 2020-06-14 18:51:07

Используйте update вместо insert.

Может, и по хешам можно сравнивать, но для 40к+ объектов думаю это непростительная для оптимизации задача.

Answer 2 · 2020-06-15 14:05:07

Разобрался с updateOne, все работает, но есть одно но, база обновляется и записывает новые объекты за ~6 минут и процессов в течении этих 6 минут загружен на 100%. Задача заключалась чтоб в течении минуты это все происходило и без такой колоссальной нагрузки нагрузки на процессор.

Answer 3 · 2020-06-15 16:25:29

Так не пробовали?

dbo.collection('collection').findOne({ _id: database_2._id }, function (err, data) {
    if (!data) {
        
    }
});

Как отбрасывать дубликаты при записи в mongoDB?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт