@maksam07

Как сделать бесконечный многопоточный парсинг данных?

Добрый день! Пишу сайт на джанго, некую аналитику десятков сайтов. И у меня появились задачи:
1. Как сделать многопоточный парсинг данных по урл? Предположим, их 100. Читал про multiprocessing Pool (+requests, +BeautifulSoup) и даже уже реализовал вариант парсинга при помощи него, но интересует мнение экспертов, как это правильнее делать.
2. После окончания парсинга (задача 1), мне нужно чтобы задача снова сразу вступила в работу и так продолжалось всегда, пока сайт/сервер работают. Работал только с кроном, но там такое реализовать не получится
2.2. Возможно, если задача выполнилась слишком быстро, например, в течение 2-х секунд, то сделать блок, чтобы новая задача не запускалась раньше, чем через 10 секунд после запуска предыдущей. В теории это делается на серверной стороне, но вдруг в решении задачи 2 будет нативная какая-то настройка с ограничениями
  • Вопрос задан
  • 226 просмотров
Решения вопроса 1
sergey-gornostaev
@sergey-gornostaev Куратор тега Django
Седой и строгий
Пригласить эксперта
Ответы на вопрос 1
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Любая очередь. Только в коде тасков ставите добавление таска снова.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы