Скрипт на Python работает медленно, как ускорить?

Question

FermerBilli @FermerBilli

Скрипт на Python работает медленно, как ускорить?

Всем привет! Есть скрипт для определения в индексе поисковой системы страница или нет и результат записывает в отдельный файл. Скрипт в целом работает, но работает медленно, а мне нужно проверить порядка 300.000 страниц. Подскажите пожалуйста, есть ли способы как то ускорить работу кода? В python новичек.

import requests
import pandas as pd

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}
d = {}
options = {
'muteHttpExceptions': True,
'followRedirects': False
}

with open('all-website-url.txt', encoding="utf-8") as f:
response_url = [line.strip() for line in f]

for i in response_url:
resp = f'https://www.google.ru/search?q=site:{i}'
response = requests.get(resp, options, headers=headers).text
if "ничего не найдено" in response:
print("Не в индексе")

d.setdefault("URL", []).append(i)
d.setdefault("Статус", []).append("Не в индексе")
else:
print("В индексе")
d.setdefault("URL", []).append(i)
d.setdefault("Статус", []).append("В индексе")

df = pd.DataFrame(data=d)
df.to_excel('./googlecheckindex.xlsx')

Вопрос задан более года назад
231 просмотр

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 2

8 комментариев

FermerBilli @FermerBilli Автор вопроса

Спасибо, а не подскажете, что нужно конкретно изменить и добавить в код, повторюсь в python новичек и многого еще не до понимаю)

Написано более года назад
Михаил Р. @Mike_Ro Куратор тега Python

FermerBilli,

Спасибо, а не подскажете, что нужно конкретно изменить и добавить в код

Весь скрипт, соответственно, это не попадает под критерий "конкретно", а попадает под "сделайте все за меня".

Написано более года назад
Vindicar @Vindicar

FermerBilli, скорость будет только во вред, так как гугл очень быстро начнёт показывать капчу твоему горе-парсеру.

Написано более года назад
FermerBilli @FermerBilli Автор вопроса

Vindicar, а почему горе-парсер? все так плохо?

Написано более года назад
Михаил Р. @Mike_Ro Куратор тега Python

Vindicar,

скорость будет только во вред, так как гугл очень быстро начнёт показывать капчу твоему горе-парсеру.

Т.к. автор в python новичок, то предлагаю решать проблемы по мере поступления и вначале понять, как вообще работает асинхронщина в python. Да и если говорить о капче, то он ее начнет показывать из за легкого детекта requests/aiohttp, т.е. до бана по скорости нужно еще дорасти ;)
FermerBilli,

а почему горе-парсер? все так плохо?

requests/aiohttp - это примитивные инструменты для парсинга, особенно тех сервисов, где работают целые команды для защиты от парсинга. Используйте Selenium+undetected-chromedriver+не серверные прокси.

Написано более года назад
Vindicar @Vindicar

FermerBilli, ну он подошёл бы для обычного сайта, который никак не пытается защищаться от парсеров.
Чем популярнее сайт как цель парсинга, тем жестче там обычно меры защиты.
Желающих попарсить гугл - море, и как следствие - иногда человеку трудно убедить гугл, что он человек, не то что парсеру.
Тебе выше подсказали, что нужна имитация браузера (selenium), причем трудноотличимая отреального браузера (undetected-chromedriver), причем заходящая в сеть с диапазонов адресов, принадлежащих коммерческим провайдерам, а не хостингам.
И в ряде случаев и этого может не хватить, например, может потребоваться история посещений (т.н. прогрев, чтобы бот побегал по разным сайтам где есть гугловская реклама или иные метрики), может потребоваться закос под скорость работы человека... факторов может быть много, а их точный список знают только инженеры гугла, и они не станут им делиться, сам понимаешь.

Написано более года назад
FermerBilli @FermerBilli Автор вопроса

Михаил Р., Vindicar, В скорости уже нет необходимости, попал на каптчу, но обойти ее не получается

import requests
import pandas as pd
import undetected_chromedriver as webdriver

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"}
d = {}
#options = {
# 'muteHttpExceptions': True,
#'followRedirects': False
#}

with open('all-website-url.txt', encoding="utf-8") as f:
response_url = [line.strip() for line in f]

for i in response_url:
resp = f'https://www.google.ru/search?q=site:{i}'
response = requests.get(resp, headers=headers).text
print(response)
if "ничего не найдено" in response:
print("Не в индексе")

d.setdefault("URL", []).append(i)
d.setdefault("Статус", []).append("Не в индексе")
else:
print("В индексе")
d.setdefault("URL", []).append(i)
d.setdefault("Статус", []).append("В индексе")

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--use_subprocess")

browser = webdriver.Chrome(options=chrome_options)
browser.get('https://www.google.ru/')
browser.save_screenshot('screenshot.png')

df = pd.DataFrame(data=d)
df.to_excel('./googlecheckindex.xlsx')

Написано более года назад
Михаил Р. @Mike_Ro Куратор тега Python

FermerBilli, обход капчи уже другим скриптом слабо относится к настоящему вопросу.

Написано более года назад

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Насколько надёжен шифр от ИИ?
- 1 подписчик
- 2 часа назад
- 87 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 126 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 212 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 552 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 116 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 146 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 545 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 148 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 132 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

1. Оформи код по правилам сайта. Кнопка </> в помощь.
2. Расставь отладочные print(), определи, какая часть кода тормозит.

Answer 1 · 2024-05-22 10:59:25

Скрипт в целом работает, но работает медленно, а мне нужно проверить порядка 300.000 страниц. Подскажите пожалуйста, есть ли способы как то ускорить работу кода?

Ваш скрипт выполняет запросы к ПС последовательно, по одному за раз (синхронно), дожидаясь завершения предыдущего. Чтобы радикально увеличить производительность, необходимо выполнять операции параллельно (асинхронно). Используйте asyncio для выполнения асинхронного выполнения скрипта, и aiohttp вместо requests в качестве асинхронного http клиента.

Answer 2 · 2024-05-22 13:35:14

import requests
import pandas as pd
from concurrent.futures import ThreadPoolExecutor, as_completed

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
}

options = {
    'muteHttpExceptions': True,
    'followRedirects': False
}

def check_url(url):
    resp = f'https://www.google.ru/search?q=site:{url}'
    response = requests.get(resp, options, headers=headers).text
    if "ничего не найдено" in response:
        return url, "Не в индексе"
    else:
        return url, "В индексе"

def main():
    with open('all-website-url.txt', encoding="utf-8") as f:
        urls = [line.strip() for line in f]

    results = []

    with ThreadPoolExecutor() as executor:
        futures = [executor.submit(check_url, url) for url in urls]
        for future in as_completed(futures):
            url, status = future.result()
            results.append({"URL": url, "Статус": status})
            print(f"{url}: {status}")

    df = pd.DataFrame(results)
    df.to_excel('./googlecheckindex.xlsx', index=False)

if __name__ == '__main__':
    main()

Скрипт на Python работает медленно, как ускорить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт