Добрый день, друзья мои!
Появилась задача органозовать скрэпинг для сео-отдела. Обязательно анонимно (ну как же без этого, правда?).
Необходмо делать тысячи запросов (вернее, сотни тысяч в сутки), поэтому пул адекватных прокси нужен не менее чем 5000 (а лучше 10000) в глубину.
Сразу определюсь что значит "адекватный прокси":
а. публичный
б. живой, т.е. запрос проходит на целевой адрес без ошибок и таймаута
в. анонимный (не обязательно элитный), проверяется отдельно через
ping.eu или аналогичный сервис
На данный момент я беру листы прокси с агрегаторов типа:
proxyserverlist-24.blogspot.com
freeproxylists.net
free-proxy-list.net
То что копировать листы нужно ежедневно руками это не большая проблема по сравнению с итогом.
Гораздо хуже то что если на вход в сутки я собираю 30000 - 40000 прокси-адресов, то после проверки на адекватность (публичный-живой-анонимный) их остается лишь 300 - 500 штук.
Этого мало, прокси идут в бан через несколько десятков прокруток.
Я пробовал так-же листы из платных подписок, но там, как и ожидалось, тотже самый пул, только за 20 иностранных денег в месяц.
Если тянуть листы с других агрегаторов (платных или бесплантых, не важно), то будь их хоть полмиллиона (проверено) все равно проверку проходят те же самые 300 - 500.
Кто успешно решил аналогичную задачу, пожалуйста дайте совет или поделитесь ссылками на полезные ресурсы. Цель - несколько тысяч публичных живых анонимных прокси адресов.
Спасибо пожалуйста!