@stepan-neretin7

Как грамотно спарсить с поисковиков?

Ребята,как грамотно парсить поисковые запросы с яндекса или гугл без капчи,был бы благодарен
Предпологаю что через динамические прокси?Верно
Если у кого нибуть есть пример скрипта,поделитесь
  • Вопрос задан
  • 219 просмотров
Пригласить эксперта
Ответы на вопрос 5
SagePtr
@SagePtr
Еда - это святое
Никак, поисковики гораздо умнее вредителей и совершенствуют методы определения вредителей)
Ответ написан
Konata69lol
@Konata69lol
backend developer (php/go)
Предпологаю что через динамические прокси

Всё так. Причем закупать где-нибудь эти прокси, а не брать бесплатные.

Если у кого нибуть есть пример скрипта,поделитесь

Работающая поделка осталась на прошлой работе. Могу только общие принципы изложить:
- У яндекса и гугла разные ограничения. Находил где-то рекомендацию "1 запрос раз в 5 минут" с одного прокси - это взял за общее. От этого ограничения и отталкивался.
- Закупать пачками прокси. Написать менеджер, который управляет заменой прокси, если по ним начинают фейлится запросы (капча тоже).
- Помимо разных прокси использовать разные user-agent. Где-то находил коллекцию или генератор фейковых агентов.
- Использовать менеджер очередей. Полезно для больших коллекций запросов, для обработки фейленных запросов и т.д.

- Не использовал сервисы распознования капчи, т.к. дорого/долго. Проще возиться с проксями.
- Не использовал яндекс апи. Там жесткие ограничения, да и выдача ощутимо отличается от реальной.
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
главное в методе - непубличность

прокси, если чо, Яша быстро узнает, если публичные
Ответ написан
Комментировать
@grinat
Когда-то давно у них api были, хз как сейчас. Но mail/rambler/nigma работали через api яндекса. Гугл свое вроде закрыл давно.
Ответ написан
Комментировать
Kasperenysh
@Kasperenysh
Рецидив в особо острой форме))
Возможно такой вариант может оказаться оптимальным...
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
YCLIENTS Москва
от 200 000 до 350 000 ₽
Бюро Цифровых Технологий Санкт-Петербург
от 120 000 до 180 000 ₽
Ведисофт Екатеринбург
от 25 000 ₽
03 мая 2024, в 00:45
1000 руб./за проект
02 мая 2024, в 23:56
2000 руб./за проект
02 мая 2024, в 23:29
1500 руб./в час