В итоге парсеры работают без паузы круглые сутки, не нагружают сайты, и не попадают в поле зрения.
у меня задача парсить не один определенный сайт, а много одностраничных сайтов на которые я перехожу из гугла - и проблема именно на моменте открытия гугла наступает чтобы вводить туда запрос, поэтому я не нагружаю ничего, а просто пытаюсь открывать гугл без ввода капчи (но пока не выходит, через 20-30 таких запросов начинается капча)
Как обойти капчу на selenium?
Если не использовать сторонние сервисы, тогда примерно так:
1) Нанимаете математика (обязательно! А можно и двух).
2) Нанимаете программистов.
3) Закупаете дорогостоящие оборудование(основной упор на видеокарты)
4) Качаете файлик(пару ТБ думаю для начала достаточно) с картинками гидрантов, светофоров, лодок и т.д.
Profit! Математик(и) строит алгоритм для обучения сети, программисты переводят его в код на Python. Ну если вы знаете Python, тогда отлично, на программистах можно сэкономить.
у меня все это есть, я ML программистка и как я уже сказала меня больше интересует вариант не разгадывания капчи а ее обход
и не вижу как тут особо математика нужна
Fenix957, у них есть бесплатный пробный период, но конечно не знаю как это использовать в моих целях - ну то есть как запускать мой код на питоне с селениумом через этот браузер, а не через chrome/firefox профили
beem7, не то чтобы я очень хитрая, но способы явно существуют xD
мб использование какого-то другого search engine а не гугла как я сейчас делаю
то есть например когда я открываю Тор вручную и там вылетает капча то жму на "new identity" то через несколько таких обновлений капча исчезает (я просто хочу повторить то же самое на питоне)
меня интересуют именно методы обхода капчи (чтобы вообще с ней не сталкиваться), а не решение капчи (я смогу решить капчу на питоне но это в разы замедлит скрейпинг)
yupiter7575, из-за того что выскакивает Response [403] скачивается не тот контент что нужен (не тот что при открытии сайта через браузер и нажатии view page source)
у меня задача парсить не один определенный сайт, а много одностраничных сайтов на которые я перехожу из гугла - и проблема именно на моменте открытия гугла наступает чтобы вводить туда запрос, поэтому я не нагружаю ничего, а просто пытаюсь открывать гугл без ввода капчи (но пока не выходит, через 20-30 таких запросов начинается капча)
у меня все это есть, я ML программистка и как я уже сказала меня больше интересует вариант не разгадывания капчи а ее обход
и не вижу как тут особо математика нужна