Как правильно парсить Яндекс Блоги (blogs.yandex.ru), используя прокси?
Приветствую!
Пишу парсер на PHP+cURL.
Требуется каждый час парсить результаты выдачи blogs.yandex.ru по 950 запросам.
Для решения этой задачи, очевидно, требуется антикапча и прокси.
Если с антикапчей все понятно, то к прокси есть вопросы:
1. Насколько замедляет использование прокси получение результатов выдачи, учитывая требуемое количество запросов?
2. Какое количество прокси и какая задержка требуется для этой задачи, чтобы прокси не забанили?
3. Какие прокси лучше использовать: индивидуальные или общие?
Сразу скажу, что API Яндекс.Блогов не подойдет по причине того, что там лимит — 70 запросов в час.
1. Прокси прокси рознь. Одни шустры и беспроблемны, другие утром работают, вечером нет. Конечно же, время ответа у каждого свое. Можно просто при таймауте выше 5-7 сек переключаться на другой прокси.
2. Имхо, только эмпирическим путем это надо определять.
3. Скажу по своему только опыту - с общедоступными мороки больше. Я покупал списки прокси. Но и их покупка не избавляет от проблем - те же задержки, какие-то могут не работать вообще. В общем прокси - не всегда панацея.