Как парсить яндекс чтобы не забанил?

Работаем над парсером, который собирает определённую инфу с маркета.
Раньше была подсетка айпишников, которые отстреливались по мере их забанивания и возвращались в обойму после выхода из бана.
Теперь яндекс сразу банит всю подсеть. Что делать?
  • Вопрос задан
  • 14702 просмотра
Решения вопроса 1
WooDFox
@WooDFox
Я, для подобного рода задачи (скан нескольких ресурсов с объявлениями), написал парсер проксей, в который накидал ссылок на разнообразные сервисы со списками проксей, соббсно.
Общая логика такова:
1. Раз в пять минут обходим все ресурсы, собираем адреса и кладем в базу.
2. Другой скрипт их постепенно чекает на анонимность, локэйшн и латенцию. Хорошие добавляем в другую таблицу, плохие помечаем как неподходяще (неанонимно/не подходит страна) и повисшие. Повисшие потом можно еще раз проверить.
3. По "хорошей" таблице бегает еще один чекер, который проверяет не померли ли прокси.
4. Ну и вот наш воркер, который берет прокси с минимальной латенцией и истользует их.
Не забываем сделать ротацию проксей.
Есть еще несколько деталей, но до них не сложно догадаться. В среднем постоянно имел около 40-60 прокси с минимальной задержкой. Банили довольно часто. Проблем не возникало.
Ответ написан
Пригласить эксперта
Ответы на вопрос 3
Легально (для получения надо будет врать и всячески изворачиваться): Контентный API
НЕлегально: Antigate
Ответ написан
@tushev
1. Сделать сеть прокси-серверов на базе обычных дешевых shared или vds хостингов в разных датацентрах.
2. Выходить в интернет через провайдера с нефиксированным IP. Как вариант через 3G/4G модем, где обычно для смены IP достаточно перезапустить подключение. Врядли они будут банить целого мобильного оператора.
3. Воспользоваться сервисами-анонимайзерами.
4. Не насиловать Yandex слишком быстрым потоком запросов.
Ответ написан
foxcode85
@foxcode85
Вот кстати нашел на гитхабе yandex-parser Может поможет. Насколько я понял, там используется XML
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы