Есть 20 сайтов. Их надо мониторить на появление новой информации. В данный момент они проверяются каждую минуту. Работают через бесплатные (или дешёвые), но анонимные прокси. Но вот после некоторого времени пришли к мнению что это не стабильно. Напрямую с сервера нельзя, т.к. вычисляют ip и блокируют доступ. Хотелось бы получить совет, что лучше использовать в данной ситуации: vpn или просто качественные прокси. Желательно с указание качественного ресурса.
1. Зачем вы мучаете каждую минуту ресурс-донор?!!!!
Если какие-то посты там мониторите, то достаточно мониторить RSS/Atom-ленту каждые 3-5 минут, а при появлении изменения - уже закачивать новый контент по линку из новости для дальнейшего парсинга к себе.
2. Кравлер должен парсить Round-Robin'ом ("каруселью"): линк ресурса 1 -> линк ресурса 2 -> ... ->линк ресурса N->LOOP (начинаем сначала). А не проходить все линки ОДНОГО ресурса забивая ему канал!
3. Качественный ресурс - необходимо кравлеру прикинуться обычным пользователем: не запрашивать часто, под одной сессией смотреть 5-6 слинкованных страниц.
Тогда Вам спокойно хватит 2-3 прокси-адресов на долгое время.
Предположительно автору нужно около 900 тыс запросов в месяц, 44640 мин/мес * 20 сайтов ,при условии одного запроса на каждый сайт , выйдет в 100 $ минимум.