Как обойти каптчу гугл в парсере?

Question

ParenPacan @ParenPacan

Как обойти каптчу гугл в парсере?

Здравствуйте, есть код, который парсит выдачу гугл и записывает, есть ли страница в поиске (в индексе) если нет то (не в индексе). Столкнулся с ситуацией, что парсер залез в каптчу и дальнейшие данные парсинга неверны. Подскажите как можно обойти каптчу? пробовал никак не получается. В python я новичек

import requests
import pandas as pd
from concurrent.futures import ThreadPoolExecutor, as_completed
import undetected_chromedriver as webdriver

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
}

options = {
    'muteHttpExceptions': True,
    'followRedirects': False
}

def check_url(url):
    resp = f'https://www.google.ru/search?q=site:{url}'
    response = requests.get(resp, options, headers=headers).text
    if "ничего не найдено" in response:
        return url, "Не в индексе"
    else:
        return url, "В индексе"

def main():
    with open('all-website-url.txt', encoding="utf-8") as f:
        urls = [line.strip() for line in f]

    results = []

    with ThreadPoolExecutor() as executor:
        futures = [executor.submit(check_url, url) for url in urls]
        for future in as_completed(futures):
            url, status = future.result()
            results.append({"URL": url, "Статус": status})
            print(f"{url}: {status}")
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--use_subprocess")

    browser = webdriver.Chrome(options=chrome_options)
    browser.get('https://www.google.ru/')
    browser.save_screenshot('screenshot.png')
    df = pd.DataFrame(results)
    df.to_excel('./googlecheckindex.xlsx', index=False)

if __name__ == '__main__':
    main()

Вопрос задан более года назад
200 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- вчера
- 127 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- вчера
- 90 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 84 просмотра
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 170 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 392 просмотра
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 231 просмотр
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 362 просмотра
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 268 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 170 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Используя сторонние сервисы 2capcha, например

Answer 1 · 2024-05-22 15:38:48

В Google сидит целая толпа выпускников всяких там MIT и Беркли, которые целыми днями разрабатывают и совершенствуют способы выявления парсинга и защиты от него. Им помогает толпа индусов, которая нон-стоп ищет способы обхода защиты, а потому защиту сразу исправляют, как только в публичном доступе появляется эффективный и экономически целесообразный способ её обхода. Так что если кратко, действенный ответ вам никто не даст, а чтобы найти его самому, придётся здорово напрячь мозги.

Answer 2 · 2024-05-22 15:07:44

В python я новичек

новички неспособны на подобное. Как обходить писать 100500 раз, это комплекс мер и не факт что он сработает

Как обойти каптчу гугл в парсере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт