Как реализовать сбор большого объема данных?

Question

vetsmen @vetsmen

Как реализовать сбор большого объема данных?

Как правильно реализовать архитектуру для сбора большого объема статистики?
Нужно будет выполнять порядка 50.000 запросов на сторонний API раз в 15 минут, брать данные и записывать их в БД.
Сможет ли вообще нода на одном сервере справиться с этим? Какое нужно железо для такого объема? Как реализовать саму логику сборщика сиатистики (как я понимаю, поставить setInterval на 15минут и циклом проходить по данным и делать запрос плохая идея)? Справится ли с такой нагрузкой mysql без масштабирования?

Вопрос задан более трёх лет назад
296 просмотров

3 комментария

Подписаться 2 Оценить 3 комментария

sim3x @sim3x

Вас забанят через 30 минут такого спама

Написано более трёх лет назад
vetsmen @vetsmen Автор вопроса

sim3x, сервис, куда отправляю запросы, высоконагруженный + всегда есть прокси сервера на крайний случай

Написано более трёх лет назад
sim3x @sim3x

vetsmen, начните с простого - просто попробуйте пропарсить на 50-100 потоках и посмотреть сколько ето займет времени

Если не забанят и парсинг пройдет за менее чем 15 минут, то просто запихиваем скрипт в крон и стартуем с интервалом 15 мин

И поищите феймворки для парсинга

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Фронтенд-разработчик

10 месяцев

Далее
Skillbox

JavaScript

3 месяца

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 16 нояб.
- 225 просмотров
3

ответа
JavaScript

+2 ещё

Простой
Как получить события VK.VideoPlayer используя JS?
- 1 подписчик
- 11 нояб.
- 135 просмотров
1

ответ
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 265 просмотров
2

ответа
JavaScript

+1 ещё

Сложный
Почему зависает виджет в OBS?
- 1 подписчик
- 10 нояб.
- 183 просмотра
0

ответов
JavaScript

Простой
Смещение группы в fabric.js?
- 1 подписчик
- 06 нояб.
- 134 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 237 просмотров
1

ответ
JavaScript

Простой
Как создать рисунок из PHP в Fabric.js?
- 2 подписчика
- 28 окт.
- 175 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Какой скрипт загружает меню в Ютуб?
- 2 подписчика
- 27 окт.
- 300 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 428 просмотров
3

ответа
JavaScript

Простой
Как работать с разрозненными данными?
- 1 подписчик
- 21 окт.
- 257 просмотров
2

ответа
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 200 000 до 300 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

Фронтенд разработчик (Frontend developer)

Айдис

от 100 000 ₽

Вас забанят через 30 минут такого спама
sim3x, сервис, куда отправляю запросы, высоконагруженный + всегда есть прокси сервера на крайний случай
vetsmen, начните с простого - просто попробуйте пропарсить на 50-100 потоках и посмотреть сколько ето займет времени

Если не забанят и парсинг пройдет за менее чем 15 минут, то просто запихиваем скрипт в крон и стартуем с интервалом 15 мин

И поищите феймворки для парсинга

Answer 1 · 2017-09-22 01:15:41

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

50000/(15*60) ~ 56 запросов в секунду на сторонний API!
А мужики-то знают?!)

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2017-09-22 08:25:53

Реализовать логику так чтобы не приходилось кидать 50к запросов раз в 15 минут, а так по факту делать очереди и добавлять задачи на сбор информации, поскольку это внешний сервис и его работоспособность нам неведома, то очереди помогут. Да и есть вероятность того, что сбор не отработал и тут по таймеру мы вновь запускаем новый, ох и треш тут может начаться если не учитывать конфл. запросы. Вот инструмент для очередей (redis) https://github.com/Automattic/kue

Как реализовать сбор большого объема данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт