@Sazoks

Может ли Google блокировать запросы из-за их большого кол-ва (Парсер на Python)?

Всем привет. С Python'ом я вообще не был знаком 2 недели назад.
Появилась острая необходимость написать свой парсер email'ов) За этот срок пришлось освоить азы Python и соответствующие библы. Суть парсера заключается в следующем:
1) Есть файл с довольно большим кол-вом городов России
2) Программа читает файл построчно (каждый город в своей строке) и делает запрос 'разработка сайтов в ' + город
3) По поисковой выдачи гугла парсит каждый сайт отдельно на наличие мыла и сохраняет это в файл
4) Далее так же со следующим городом

Но! При тесте программы я заметил, что бывает пропускает какой-то город. Т.е. в консоли идет название города, а внизу все мэйлы по запросу. А бывает, что просто название города, а снизу пусто, и далее следующий город. Вот у меня и возник вопрос, может ли быть это связано с блокировкой, из-за слишком большого кол-ва запросов?
Спасибо
  • Вопрос задан
  • 276 просмотров
Решения вопроса 2
inoise
@inoise
Solution Architect, AWS Certified, Serverless
Гугл не просто может, а делает это. Но в вашем конкретном случае вам стоит обратить внимание на заголовки и код ответа. Для парсинга больших объемов вообще используют прокси
Ответ написан
Комментировать
yarkov
@yarkov
Помог ответ? Отметь решением.
Да, может
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
SagePtr
@SagePtr
Еда - это святое
Да, при большом кол-ве запросов с одного IP Гугл начинает выдавать капчу при поиске. Убедиться можно на браузере Опера с VPN, там из-за большого кол-ва юзеров через один и тот же VPN капча на гугле практически вечная)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы