@heavig2

Какие технологии использовать для постоянного мониторинга страниц?

Пишу небольшой сервис для своих нужд. Основной функционал будет состоять из двух этапов:
1. Получение позиции сайта через Яндекс.XML;
2. Постоянный мониторинг страниц сайта (более миллиона страниц), чтобы в нем присутствовали все нужные элементы.

Изучал вопрос, решил остановиться на Gearman. Есть несколько вопросов:
1. Правильный ли выбор? Или есть более хорошие аналоги?
2. Можно ли получать от Gearman данные, к примеру позицию сайта по запросу?
  • Вопрос задан
  • 707 просмотров
Пригласить эксперта
Ответы на вопрос 3
dimonchik2013
@dimonchik2013
армяне в ночных клубах теперь не "итальянцы"
1) https://www.rabbitmq.com/
2) ну, без Яндекса-то вряд ли кто сообщит такое, а вот с яндексом как раз вся сложность
Ответ написан
2ord
@2ord
продвинутый чайник
1-й сервис периодически сканирует результаты позиций сайтов. При получении каждого отдельного результата сайта или определенного их количества (скажем, 10), отправляется задача в очередь "ПозицииСайтов".
2-й сервис-воркер в необходимом количестве экземпляров получает задачи по сканированию из "ПозицииСайтов". При этом фиксируется в БД начало операции сканирования сайта и по окончанию проверки помечается что задача выполнена.
Ответ написан
OnYourLips
@OnYourLips
Позвали меня как эксперта по тегу.

Да, все правильно уже подсказали: очереди, разные воркеры для разного типа контента.
Я бы взял RabbitMQ, потому что это мейнстрим.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы