Как лучше парсить большой объём?

Есть 20 сайтов. Их надо мониторить на появление новой информации. В данный момент они проверяются каждую минуту. Работают через бесплатные (или дешёвые), но анонимные прокси. Но вот после некоторого времени пришли к мнению что это не стабильно. Напрямую с сервера нельзя, т.к. вычисляют ip и блокируют доступ. Хотелось бы получить совет, что лучше использовать в данной ситуации: vpn или просто качественные прокси. Желательно с указание качественного ресурса.
  • Вопрос задан
  • 1705 просмотров
Пригласить эксперта
Ответы на вопрос 3
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
1. Зачем вы мучаете каждую минуту ресурс-донор?!!!!
Если какие-то посты там мониторите, то достаточно мониторить RSS/Atom-ленту каждые 3-5 минут, а при появлении изменения - уже закачивать новый контент по линку из новости для дальнейшего парсинга к себе.
2. Кравлер должен парсить Round-Robin'ом ("каруселью"): линк ресурса 1 -> линк ресурса 2 -> ... ->линк ресурса N->LOOP (начинаем сначала). А не проходить все линки ОДНОГО ресурса забивая ему канал!
3. Качественный ресурс - необходимо кравлеру прикинуться обычным пользователем: не запрашивать часто, под одной сессией смотреть 5-6 слинкованных страниц.

Тогда Вам спокойно хватит 2-3 прокси-адресов на долгое время.
Ответ написан
@DannyFork
у Crawlera есть ,автоматический ротатор на тысячи прокси https://scrapinghub.com/crawlera/
Ответ написан
Mouvdy
@Mouvdy
Мы в работе используем прокси от actproxy.com работают стабильно и без нареканий, попробуйте, прокси стабильные и стоят относительно копейки
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы