Парсинг по расписанию и аплоад в БД?

Question

sivesil25 @sivesil25

Парсинг по расписанию и аплоад в БД?

Привет!

Нужен совет и мысли вслух о порядке действий.
Задача такая (тестовая)
По расписанию, каждую ночь получать со стороннего АПИ файл с данными (100000 записей на 14000 товаров)
Сгруппировать по шаблону товары
Загрузить в БД (монго)

Сторонний АПИ это что-то метафизическое, доступа к нему нет, просто файл.

Ну как я понимаю порядок действие:
На NestJS Cron задача, axios отправляет гет запросы на адрес пока через через пост не получит файл с выгрузкой
Парсим в свой шаблон
Загружаем в базу
Ждем следующей ночи

Вопрос возникает ещё и по БД.
Судя по всему каждую ночь в файле выгрузка всех товаров
Нужно каким-то образом найти разницу и пометить товары как удаленные / не активные из старого списка
Как правильнее тут поступить?
Выгрузить старую на сервер и сравнить с новой
Или есть какие-то методы в mongoose ?

Прошу прощения за спонтанность, просто нужен мозговой штурм и накинуть идей хороших на вентилятор
Всем спасибо)

Вопрос задан более двух лет назад
156 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Skillbox

JavaScript

3 месяца

Далее
Яндекс Практикум

Фронтенд-разработчик расширенный

13 месяцев

Далее
Академия Eduson

Fullstack-разработчик на JavaScript

11 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Бэкенд

Простой
Как удобно программировать бекенд?
- 1 подписчик
- час назад
- 24 просмотра
1

ответ
JavaScript

+2 ещё

Средний
E2EE + WEB = поищем безопасность?
- 1 подписчик
- 3 часа назад
- 67 просмотров
1

ответ
JavaScript

Средний
Как сделать, чтобы легенды не «наежали» на график?
- 1 подписчик
- вчера
- 82 просмотра
1

ответ
MongoDB

Простой
Как получить записей содержащих нужное значение в массиве?
- 1 подписчик
- 18 дек.
- 51 просмотр
1

ответ
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 2 подписчика
- 11 дек.
- 163 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек.
- 134 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 180 просмотров
0

ответов
JavaScript

Простой
Как сделать чтоб условия не перезаписывались?
- 1 подписчик
- 02 дек.
- 253 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 221 просмотр
1

ответ
JavaScript

Простой
Переход по ссылке с параметром на конкретный узел в vis.js?
- 1 подписчик
- 24 нояб.
- 119 просмотров
0

ответов
Показать ещё Загружается…

Fullstack JavaScript разработчик

MakeDifference

от 60 000 до 110 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

axios отправляет гет запросы на адрес пока через через пост не получит файл с выгрузкой
???
Rsa97, сам думаю над этим. В описании ничего нет о том, каким образом файл появляется.
Как вариант на том сервере тоже крон и тоже каждую ночь формирует и отправляет пост с файлом.
Или я его должен нет запроса к тому арт тригернуть и после этого получать файл

Answer 1 · 2023-12-01 21:51:10

Тебе нужен критерий, как отличать старые записи (дубликаты или не изменившиеся, тебе виднее что там) от новых.

Если удобного идентификатора нет, то обычно самое простое, - формировать из сравниваемых данных строку одинаковым способом, и получать из нее хеш сумму (md5 более чем подходит, если данных не 16-значное количество, т.е. не нужно заботиться о коллизиях), его и используй как идентификатор и храни где-то списком как предыдущие значения и сравнивай с ново загруженной, прямо во время анализа. Записи, хеш сумма которых, не была найдена в записях, помещай в базу данных (ну или обновляй значения, если речь идет о модификации а не добавлении новых).

Парсинг по расписанию и аплоад в БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт