Как ускорить проект на Python?

Question

Maxwell012 @Maxwell012

Как ускорить проект на Python?

хочу разогнать мой скрипт на более быструю скорость + найти ответы на некоторые вопросы. Также я буду очень рад ссылкам на какие-то источники которые могут мне помочь.
У меня есть проект написанный на Python который осуществляет запросы на разные домены. Доменов было около 10к.
Думаю будет правильно рассказать подробнее о моем проекте прежде чем, как углублюсь в вопросы. Мой проект достаточно прост, он состоит из 3 частей:

Запрос на сайт и получения в ответе код страницы
Далее я достаю нужные мне данные с кода
В завершение я помещаю данные в бд

Теперь пройдусь по каждому пункту поподробнее:

Первая часть кода - Все URLs лежат в txt > я читаю файл, и создаю список асинхронных тасков которые я в итоге вызываю в gather > в каждом таске выполняется один запрос. Для более простого понимания прикреплю часть кода:

# Создания гейзера
async def create_gather(urls):
    tasks = []
    for url in urls:
        tasks.append(asyncio.create_task(main(url.strip())))

    await asyncio.gather(*tasks)

# Запрос
async def main(url):
    page = None
    try:
        async with aiohttp.ClientSession(timeout=timeout) as session:
            headers = {
                'User-Agent': UserAgent().chrome
            }
            response = await session.post(url, headers=headers)

        if response.status in [301, 302, 403, 404, 500, 504]:
            print(f'-----------------------{response.status}----------------------- {url}')
        else:
            page = await response.text()
    except UnicodeDecodeError:
        print(f"------ {url} -------- UnicodeDecodeError")
    except TimeoutError:
        print(f"------ {url} -------- TimeoutError")
    except Exception as ex:
        print(f'------ {url} --------\n{ex}')
    finally:
        return [page, url]

Вторая часть кода у меня синхронная, с помощью библиотеки bs4 я извлекаю мне нужные данные
Третья часть кода - использую Postgrersql, библиотеки psycopg2

В чем конкретно проблема, количество доменов выросло до 1м
Основной вопрос как я могу ускорить мой скрипт, я понимаю что я могу переписать на более низкоуровневый язык весь скрипт, но мне очень интересно как я могу на пайтоне добиться максимальной скорости, мне очень интересно как это делают гуру пайтона)

Вопросы которые меня также волнуют:

Если ли лучше библиотека чем aiohttp?
Какие бы вы использовали библиотеки место bs4 и psycopg2 для большей производительности?
И важный вопрос, как лучше всего считать кол-во страниц сайта?

Вопрос задан более двух лет назад
208 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Vindicar @Vindicar

Замеры времени выполнения разных участков кода делал? Где именно bottleneck?
Если не делал, то сделай, иначе можно долго гадать на кофейной гуще.

Написано более двух лет назад
Модератор @TosterModerator

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4, 3.7

Написано более двух лет назад
Maxwell012 @Maxwell012 Автор вопроса

Модератор, сорри, спешил и особо не подумал о тегах

Написано более двух лет назад
Maxwell012 @Maxwell012 Автор вопроса

Vindicar, Делал замеры только всего кода, чуть позже сделаю и добавлю замеры частей кода. На счет слабых мест, после замеров будет точно понятно слабое место, но я уверен что есть что подтянуть и улучшить в каждом аспекте кода, из за этого я расписывал вес свой код

Написано более двух лет назад
Модератор @TosterModerator

Maxwell012, вы полагаете, что за вас будут тут улучшать и разгонять каждый фрагмент вашего кода? Тут так не работает.
На вопрос «как сделать» отвечает документация и поиск в интернет.

Тут отвечают на вопросы «почему я сделал, как в документации, а оно не работает. Поискал в интернет, вот запросы, в ответах не нашел. Что я делаю не так?»

Покажите, как вы пробовали решить проблему, опишите, как запускали, что ожидали и что получилось.

За готовыми решениями - на фриланс. В текущем виде это не вопрос, а задание. Нарушен п.5.12 Регламента.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Проектирование программного обеспечения

+1 ещё

Простой
Есть ли типовые архитектуры системы диспечерезации?
- 1 подписчик
- 07 нояб.
- 66 просмотров
2

ответа
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 124 просмотра
2

ответа
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 180 просмотров
4

ответа
Проектирование программного обеспечения

Простой
Как в 2025 году приблизиться к полному CAP (не AP/CP/CA), а именно к CAP?
- 6 подписчиков
- 12 авг.
- 1218 просмотров
1

ответ
Проектирование программного обеспечения

+1 ещё

Средний
Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?
- 2 подписчика
- 03 авг.
- 396 просмотров
3

ответа
C#

+1 ещё

Простой
Как спроектировать домены?
- 3 подписчика
- 26 июл.
- 197 просмотров
0

ответов
Проектирование программного обеспечения

Простой
Как общаются микросервисы в реальных проектах?
- 2 подписчика
- 13 июл.
- 6971 просмотр
5

ответов
AIOHTTP

Простой
Почему torify+aiohttp дает ошибку «Cannot connect to host python.org:80 ssl:default [Could not contact DNS servers]»?
- 1 подписчик
- 18 мар.
- 71 просмотр
0

ответов
PHP

+3 ещё

Простой
Как правильно построить сервис, создающий отложенные задачи на основе расписания из другого сервиса?
- 2 подписчика
- 11 мар.
- 380 просмотров
2

ответа
Проектирование программного обеспечения

Простой
Как рассмотреть все возможные сочетания во времени случайных событий?
- 1 подписчик
- 03 мар.
- 94 просмотра
2

ответа
Показать ещё Загружается…

Менеджер по качеству (эквайринг, терминалы, ККТ, банкоматы, АДМ)

ИТ-Холдинг Т1 • Санкт-Петербург

До 130 000 ₽

Выездной инженер технической поддержки

ИТ-Холдинг Т1 • Великий Новгород

от 70 000 до 70 000 ₽

Менеджер по качеству (эквайринг, терминалы, ККТ, банкоматы, АДМ)

ИТ-Холдинг Т1 • Москва

До 130 000 ₽

Замеры времени выполнения разных участков кода делал? Где именно bottleneck?
Если не делал, то сделай, иначе можно долго гадать на кофейной гуще.
Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4, 3.7
Модератор, сорри, спешил и особо не подумал о тегах
Vindicar, Делал замеры только всего кода, чуть позже сделаю и добавлю замеры частей кода. На счет слабых мест, после замеров будет точно понятно слабое место, но я уверен что есть что подтянуть и улучшить в каждом аспекте кода, из за этого я расписывал вес свой код
Maxwell012, вы полагаете, что за вас будут тут улучшать и разгонять каждый фрагмент вашего кода? Тут так не работает.
На вопрос «как сделать» отвечает документация и поиск в интернет.

Тут отвечают на вопросы «почему я сделал, как в документации, а оно не работает. Поискал в интернет, вот запросы, в ответах не нашел. Что я делаю не так?»

Покажите, как вы пробовали решить проблему, опишите, как запускали, что ожидали и что получилось.

За готовыми решениями - на фриланс. В текущем виде это не вопрос, а задание. Нарушен п.5.12 Регламента.

Answer 1 · 2023-02-24 14:42:24

Первое что бросается в глаза так это то что сессия создаётся для каждого запроса, в итоге питон очень много времени затрачивает на инициализацию и подготовку подключений, сессиию надо создать в create_gather и после передовать в main.

aiohttp под капотом имеет лимит в 100 tcp подключений в пуле, если на сервере ресурсов хватает то конечно хотелось бы иметь возможность держать хотя-бы 500 подключений на один воркер, ещё aiohttp получая ответ приводит заголовки в CMultiDict, лично у меня на тестах он работал в 20 раз медленее чем стандартный словарь

Я бы заменил aiohttp на httpcore, httpcore это минимальный клиентский интерфейс который используется в другой популярной библиотеке httpx.
httpcore работает с байтами, заголовки с ответа элементарно сплитятся и возвращаются в виде списка кортежей, можно задать хоть 1000 подключений в пуле, настроить keep-alive и слать запросы по протоколу HTTP/2.0, результат в разы быстрее чем aiohttp.

Создав большое количество подключений + задач столько же или в разы больше то скрипт начнёт подвисать на обработке цикла событий, чтобы снизить издержки стоит установить uvloop, он работает под linux.

Вместо bs4 я бы использовал parsel, по скоростям не могу сказать, чисто вкусовщина.
Если учитывать что у вас там милион доменов и они все разные то скорее всего вам нужны какие-то общие данные в виде тегов meta/title/h1 то быстрее будет написать свою функцию для анализа html.

psycopg нужно заменить на asyncpg он очень быстро преобразует python типы в типы postgresql.
asyncpg позволяет создать пул подключений к базе а после создать воркеров в количестве созданных подключений, каждый воркер должен прослушивать asyncio.Queue, в очередь можно сразу закидывать аргументы для asyncpg.
Все данные желательно кэшировать локально в dict, в словаре хоть миллион хоть 100 миллионов ключей, доступ к ним по методу .get() отрабатывается за доли микросекунды но потребление оперативной будет не малой. Пришедший и распарсенный ответ чекаем в локальном кэше, если данные изменились то отправляем задачу в очередь на обновление, если нет такого ключа то аппем куда-то значения для одного запроса INSERT с множеством VALUES, для обработки INSERT отдельную задачу надо сделать чтобы чекать раз в несколько секунд VALUES и если они есть то генерить SQL и отправлять в очередь.

Как ускорить проект на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт