В первую очередь нужно разобраться -
что такое Selenium?
В первую очередь, Selenium WebDriver - это ПО для автоматического тестирования WEB приложений. Да, никто не запрещает его использовать для парсинга, и многие его используют. Но это уже вторичное его применение. В зависимости от сервера, к которому подключается WebDriver, на нем(на сервере) может быть установлено ПО, которое палит ПО(извините за тавтологию) для автоматизации. Замаскировать Selenium для крупных сайтов тяжело, а иногда и вовсе не возможно.
ни подмена ip, ни user-agent не помогает обойти
Существуют несколько сотен параметров, по которых идентифицируют клиента. Поэтому, если вы смените ip и user-agent - то отпечаток вашего браузера изменится на 0,0002%. Это как в серое море налить 100 гр. белой краски - от этого оно белым не станет.
Как обойти капчу на selenium?
Если не использовать сторонние сервисы, тогда примерно так:
1) Нанимаете математика (
обязательно! А можно и двух).
2) Нанимаете программистов.
3) Закупаете дорогостоящие оборудование(основной упор на видеокарты)
4) Качаете файлик(пару ТБ думаю для начала достаточно) с картинками гидрантов, светофоров, лодок и т.д.
Profit! Математик(и) строит алгоритм для обучения сети, программисты переводят его в код на Python. Ну если вы знаете Python, тогда отлично, на программистах можно сэкономить.
Как не напороться на капчу:
Есть человек, который владеет официальной компанией по парсингу. Вот краткий пересказ его слов:
Они парсят все подряд, от мелких сайтов до Wildberries, Ozon и т.д. У них много серверов(vds), подключенные сервисы разгадывания капчи, прокси(ну тут я думаю и так понятно, что платные). При всем этом, они редко попадают на капчу. Алгоритм примерно следующий: парсеры запущены на многих серверах. Они получают задания. Каждый товар 1 парсер парсит из сайта раз в 9-25 секунд. При этом парсеры вместо того чтобы стать на паузу - не стают. В этот промежуток парсятся товары с другого сайта. В итоге парсеры работают без паузы круглые сутки, не нагружают сайты, и не попадают в поле зрения. То есть, они не долбят с одного сервера сайт по 200 запросов в секунду.