asyaevloeva
@asyaevloeva

Как обойти капчу на selenium?

6075a948ec401364000215.jpeg

через какое-то время от начала скейпинга появляется капча и ни подмена ip, ни user-agent не помогает обойти
в похожем вопросе предлагают вручную решать капчу, но этот вариант мне не подходит
если ли способы автоматизированно обходить капчу на python?
  • Вопрос задан
  • 3350 просмотров
Решения вопроса 1
@Fenix957
https://rucaptcha.com/demo/recaptcha-v2
Не бесплатно но довольно таки дешево есть апи и подробные инструкции

160 руб
За 1000 обычных капч
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
hottabxp
@hottabxp Куратор тега Python
Сначала мы жили бедно, а потом нас обокрали..
В первую очередь нужно разобраться - что такое Selenium?
В первую очередь, Selenium WebDriver - это ПО для автоматического тестирования WEB приложений. Да, никто не запрещает его использовать для парсинга, и многие его используют. Но это уже вторичное его применение. В зависимости от сервера, к которому подключается WebDriver, на нем(на сервере) может быть установлено ПО, которое палит ПО(извините за тавтологию) для автоматизации. Замаскировать Selenium для крупных сайтов тяжело, а иногда и вовсе не возможно.

ни подмена ip, ни user-agent не помогает обойти
Существуют несколько сотен параметров, по которых идентифицируют клиента. Поэтому, если вы смените ip и user-agent - то отпечаток вашего браузера изменится на 0,0002%. Это как в серое море налить 100 гр. белой краски - от этого оно белым не станет.

Как обойти капчу на selenium?
Если не использовать сторонние сервисы, тогда примерно так:
1) Нанимаете математика (обязательно! А можно и двух).
2) Нанимаете программистов.
3) Закупаете дорогостоящие оборудование(основной упор на видеокарты)
4) Качаете файлик(пару ТБ думаю для начала достаточно) с картинками гидрантов, светофоров, лодок и т.д.
Profit! Математик(и) строит алгоритм для обучения сети, программисты переводят его в код на Python. Ну если вы знаете Python, тогда отлично, на программистах можно сэкономить.

Как не напороться на капчу:
Есть человек, который владеет официальной компанией по парсингу. Вот краткий пересказ его слов:
Они парсят все подряд, от мелких сайтов до Wildberries, Ozon и т.д. У них много серверов(vds), подключенные сервисы разгадывания капчи, прокси(ну тут я думаю и так понятно, что платные). При всем этом, они редко попадают на капчу. Алгоритм примерно следующий: парсеры запущены на многих серверах. Они получают задания. Каждый товар 1 парсер парсит из сайта раз в 9-25 секунд. При этом парсеры вместо того чтобы стать на паузу - не стают. В этот промежуток парсятся товары с другого сайта. В итоге парсеры работают без паузы круглые сутки, не нагружают сайты, и не попадают в поле зрения. То есть, они не долбят с одного сервера сайт по 200 запросов в секунду.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы