Задать вопрос
@maksam07

Как сделать бесконечный многопоточный парсинг данных?

Добрый день! Пишу сайт на джанго, некую аналитику десятков сайтов. И у меня появились задачи:
1. Как сделать многопоточный парсинг данных по урл? Предположим, их 100. Читал про multiprocessing Pool (+requests, +BeautifulSoup) и даже уже реализовал вариант парсинга при помощи него, но интересует мнение экспертов, как это правильнее делать.
2. После окончания парсинга (задача 1), мне нужно чтобы задача снова сразу вступила в работу и так продолжалось всегда, пока сайт/сервер работают. Работал только с кроном, но там такое реализовать не получится
2.2. Возможно, если задача выполнилась слишком быстро, например, в течение 2-х секунд, то сделать блок, чтобы новая задача не запускалась раньше, чем через 10 секунд после запуска предыдущей. В теории это делается на серверной стороне, но вдруг в решении задачи 2 будет нативная какая-то настройка с ограничениями
  • Вопрос задан
  • 232 просмотра
Подписаться 1 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Яндекс Практикум
    Python-разработчик расширенный
    14 месяцев
    Далее
  • Яндекс Практикум
    Мидл Python-разработчик
    6 месяцев
    Далее
  • Яндекс Практикум
    Python-разработчик буткемп
    4 месяца
    Далее
  • Нетология
    Python-разработчик: расширенный курс + нейросети
    12 месяцев
    Далее
  • Нетология
    Python-разработчик с нуля
    6 месяцев
    Далее
  • Нетология
    Fullstack-разработчик на Python + нейросети
    20 месяцев
    Далее
  • Компьютерная академия «TOP»
    Разработка на Python
    1 год
    Далее
Решения вопроса 1
sergey-gornostaev
@sergey-gornostaev Куратор тега Django
Седой и строгий
Пригласить эксперта
Ответы на вопрос 1
firedragon
@firedragon
Не джун-мидл-сеньор, а трус-балбес-бывалый.
Любая очередь. Только в коде тасков ставите добавление таска снова.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы