Какую архитектуру использовать для новостного агрегатора?

После некоторых раздумий в голове прорисовывается следующая картина: Бот в бесконечном цикле обращается к сайтам (rss/saitmap/парсинг страницы с новостями) и получает список ссылок на новости, складывает их в базу (redis/modgoDB). Второй бот, тоже в цикле, проходит по ссылкам и парсит новости, после чего отправляет их на api сайта для последующей обработки и добавления в основную базу.
Осталось несколько вопросов: Как можно синхронизировать ботов/потоки для того, чтобы исключить дублирование новостей, как задать интервал сканирования новостного ресурса в зависимости от времени суток, какая архитектура больше подойдет для данных целей?
  • Вопрос задан
  • 642 просмотра
Пригласить эксперта
Ответы на вопрос 1
angrySCV
@angrySCV
machine learning, programming, startuping
для управления потоками, а также планированием задач удобно использовать например akka
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы