Какие технологии использовать для постоянного мониторинга страниц?
Пишу небольшой сервис для своих нужд. Основной функционал будет состоять из двух этапов:
1. Получение позиции сайта через Яндекс.XML;
2. Постоянный мониторинг страниц сайта (более миллиона страниц), чтобы в нем присутствовали все нужные элементы.
Изучал вопрос, решил остановиться на Gearman. Есть несколько вопросов:
1. Правильный ли выбор? Или есть более хорошие аналоги?
2. Можно ли получать от Gearman данные, к примеру позицию сайта по запросу?
Роман Мирр, Мне позиции сайта нужно снимать по 40 000 запросам. Поэтому и хотел сделать это через gearman, чтобы поставить их в очередь и по одному снимать. Если даже брать по 2 секунды на один запрос, то это будет практически 23 часа. И, следовательно, уже нужно снимать еще раз.
1-й сервис периодически сканирует результаты позиций сайтов. При получении каждого отдельного результата сайта или определенного их количества (скажем, 10), отправляется задача в очередь "ПозицииСайтов".
2-й сервис-воркер в необходимом количестве экземпляров получает задачи по сканированию из "ПозицииСайтов". При этом фиксируется в БД начало операции сканирования сайта и по окончанию проверки помечается что задача выполнена.