Может ли Google блокировать запросы из-за их большого кол-ва (Парсер на Python)?
Всем привет. С Python'ом я вообще не был знаком 2 недели назад.
Появилась острая необходимость написать свой парсер email'ов) За этот срок пришлось освоить азы Python и соответствующие библы. Суть парсера заключается в следующем:
1) Есть файл с довольно большим кол-вом городов России
2) Программа читает файл построчно (каждый город в своей строке) и делает запрос 'разработка сайтов в ' + город
3) По поисковой выдачи гугла парсит каждый сайт отдельно на наличие мыла и сохраняет это в файл
4) Далее так же со следующим городом
Но! При тесте программы я заметил, что бывает пропускает какой-то город. Т.е. в консоли идет название города, а внизу все мэйлы по запросу. А бывает, что просто название города, а снизу пусто, и далее следующий город. Вот у меня и возник вопрос, может ли быть это связано с блокировкой, из-за слишком большого кол-ва запросов?
Спасибо
Гугл не просто может, а делает это. Но в вашем конкретном случае вам стоит обратить внимание на заголовки и код ответа. Для парсинга больших объемов вообще используют прокси
Да, при большом кол-ве запросов с одного IP Гугл начинает выдавать капчу при поиске. Убедиться можно на браузере Опера с VPN, там из-за большого кол-ва юзеров через один и тот же VPN капча на гугле практически вечная)