Предпологаю что через динамические прокси
Всё так. Причем закупать где-нибудь эти прокси, а не брать бесплатные.
Если у кого нибуть есть пример скрипта,поделитесь
Работающая поделка осталась на прошлой работе. Могу только общие принципы изложить:
- У яндекса и гугла разные ограничения. Находил где-то рекомендацию "1 запрос раз в 5 минут" с одного прокси - это взял за общее. От этого ограничения и отталкивался.
- Закупать пачками прокси. Написать менеджер, который управляет заменой прокси, если по ним начинают фейлится запросы (капча тоже).
- Помимо разных прокси использовать разные user-agent. Где-то находил коллекцию или генератор фейковых агентов.
- Использовать менеджер очередей. Полезно для больших коллекций запросов, для обработки фейленных запросов и т.д.
- Не использовал сервисы распознования капчи, т.к. дорого/долго. Проще возиться с проксями.
- Не использовал яндекс апи. Там жесткие ограничения, да и выдача ощутимо отличается от реальной.