Каков оптимальный вариант стратегии относительно разгадывания капчи с прокси/без при парсинге поисковой выдачи Яндекса?
Есть допустим 100000 поисковых фраз, по которым надо спарсить поисковую выдачу из Яндекса. Берется какая нибудь программа, умеющая это делать (например Key Collector) и начинается процесс парсинга, но Яндекс подсовывает свою капчу и на ее распознание будут тратиться деньги в сервисах. Так за капчу может накапать некоторая сумма, а как ее можно максимально сократить? Может я чего то не знаю или как то не так настраиваю процесс парсинга и для капчи обязательно нужно задействовать прокси сервера (которые тоже стоят денег), или выставить многосекундную задержку между запросами, чтобы Яндекс не подсовывал капчу?
Допустим с одного аккаунта парсить 100000 запросов может растянуться на неделю. А для нескольких аккаунтов потребуется покупать прокси (иначе Яндекс что то заподозрит, если запросы с разных аккаунтов, но с одного ip, и опять же подсунет капчу).
Допускаю что возможно даже существуют варианты с помощью бесплатного ПО разгадывать капчу, но пока нашел только xevil, у которого бесплатная версия, как оказалось, капчу Яндекса не разгадывает, а платная стоит 14000 рублей и это никуда не годится при малых объемах.
Как на закапчованность проверяются аккаунты?
Прокси как то дороговато стоят - это везде такие цены на подходящие прокси?
100000 фраз будут парситься дня три круглосуточно с такими задержками и на 5 аккаунтах с 5 прокси.
В таком ритме аккаунт наверно не то что за дни, а за минуты или часы станет подозрительным в глазах Яндекса и почти сразу закапчуется?
На такой объем надо брать несколько тысяч проксей резидентных, капчу пробовать гадать софтом типо ксевил или камонстр если они умеют гадать капчу Яндекс, затраты фиксированные выходят