Ответы пользователя по тегу Парсинг
  • Как парсить яндекс чтобы не забанил?

    WooDFox
    @WooDFox
    Я, для подобного рода задачи (скан нескольких ресурсов с объявлениями), написал парсер проксей, в который накидал ссылок на разнообразные сервисы со списками проксей, соббсно.
    Общая логика такова:
    1. Раз в пять минут обходим все ресурсы, собираем адреса и кладем в базу.
    2. Другой скрипт их постепенно чекает на анонимность, локэйшн и латенцию. Хорошие добавляем в другую таблицу, плохие помечаем как неподходяще (неанонимно/не подходит страна) и повисшие. Повисшие потом можно еще раз проверить.
    3. По "хорошей" таблице бегает еще один чекер, который проверяет не померли ли прокси.
    4. Ну и вот наш воркер, который берет прокси с минимальной латенцией и истользует их.
    Не забываем сделать ротацию проксей.
    Есть еще несколько деталей, но до них не сложно догадаться. В среднем постоянно имел около 40-60 прокси с минимальной задержкой. Банили довольно часто. Проблем не возникало.
    Ответ написан
    4 комментария