@stepan-neretin7

Как грамотно спарсить с поисковиков?

Ребята,как грамотно парсить поисковые запросы с яндекса или гугл без капчи,был бы благодарен
Предпологаю что через динамические прокси?Верно
Если у кого нибуть есть пример скрипта,поделитесь
  • Вопрос задан
  • 219 просмотров
Пригласить эксперта
Ответы на вопрос 5
SagePtr
@SagePtr
Еда - это святое
Никак, поисковики гораздо умнее вредителей и совершенствуют методы определения вредителей)
Ответ написан
Konata69lol
@Konata69lol
backend developer (php/go)
Предпологаю что через динамические прокси

Всё так. Причем закупать где-нибудь эти прокси, а не брать бесплатные.

Если у кого нибуть есть пример скрипта,поделитесь

Работающая поделка осталась на прошлой работе. Могу только общие принципы изложить:
- У яндекса и гугла разные ограничения. Находил где-то рекомендацию "1 запрос раз в 5 минут" с одного прокси - это взял за общее. От этого ограничения и отталкивался.
- Закупать пачками прокси. Написать менеджер, который управляет заменой прокси, если по ним начинают фейлится запросы (капча тоже).
- Помимо разных прокси использовать разные user-agent. Где-то находил коллекцию или генератор фейковых агентов.
- Использовать менеджер очередей. Полезно для больших коллекций запросов, для обработки фейленных запросов и т.д.

- Не использовал сервисы распознования капчи, т.к. дорого/долго. Проще возиться с проксями.
- Не использовал яндекс апи. Там жесткие ограничения, да и выдача ощутимо отличается от реальной.
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
главное в методе - непубличность

прокси, если чо, Яша быстро узнает, если публичные
Ответ написан
Комментировать
@grinat
Когда-то давно у них api были, хз как сейчас. Но mail/rambler/nigma работали через api яндекса. Гугл свое вроде закрыл давно.
Ответ написан
Комментировать
Kasperenysh
@Kasperenysh
Рецидив в особо острой форме))
Возможно такой вариант может оказаться оптимальным...
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы