Как реализовать асинхронность + многопоточность одновременно?

Question

Павел @paulwer

Как реализовать асинхронность + многопоточность одновременно?

Мне надо запарсить огромное кол-во страниц (около 15000) с 35 статьями на каждой на каждую рубрику. Разумеется, если делать это через requests синхронно и в одном потоке, то на это уйдет очень много времени (несколько часов?), а мне информация нужна прямо сейчас. Хочу использовать aiohttp и multithreading. Хочу реализовать примерно так: каждый поток будет параллельно с другими считывать тысячи страниц определенной рубрики, которых около 15 штук. В каждом потоке будут асинхронно делаться запросы к aiohttp. Проблема в том, что executor не дает передать в себя await функцию, а если ее вызывать прямо в submit, то никакой многопоточности не будет, потоки будут выполняться последовательно.
Вопрос: как это реализовать? Текущий код прилагаю ниже:

# Other imports
import bs4
import aiohttp, asyncio
from urllib import parse
import certifi, ssl
from concurrent.futures import ThreadPoolExecutor

# Project imports
from utils import to_dict, fetch


items_list = []
SSL_CERT = ssl.create_default_context(cafile=certifi.where())

async def serialize_topic(topic: str, topics: list[str]) -> None:
    print(f'Starting to serialize {topics.index(topic)+1}. {topic}')

    async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(ssl=SSL_CERT)) as session:
        topic_html = await fetch(func=session.get, url=topic, params={'limit' : 35})

    topic_soup = bs4.BeautifulSoup(topic_html, 'html.parser')

    # Getting the last page number to handle pagination
    pagination = list(topic_soup('ul', {'class' : 'pagination'}).children)
    max_page_url = pagination[-1].a.get('href')
    max_page_params = parse.urlparse(max_page_url).query # Parsing a link to the last page in order to get its number
    dict_from_query = parse.parse_qs(max_page_params)
    max_page = int(dict_from_query['page'][0])

    # Going through all pages
    for i in range(max_page):
        async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(ssl=SSL_CERT)) as session:
            page_html = await fetch(func=session.get, url=topic, params={'page' : i, 'limit' : 100})

        page_soup = bs4.BeautifulSoup(page_html, 'html.parser')
        items = page_soup.find_all(class_='article')

        # Going through items on one page
        for item in items:

            # Getting item caption with its data
            # ... здесь просто получаю описание статьи и название 
            ...
            
        print(f'Serialized page number {i+1}')

    print(f'Serialized {topics.index(topic)+1}. {topic}')


async def main():
    # Getting all topics
    async with aiohttp.ClientSession(connector=aiohttp.TCPConnector(ssl=SSL_CERT)) as session:
        html = await fetch(func=session.get, url='')

    soup = bs4.BeautifulSoup(html, 'html.parser')
    topics = soup.find('div', {'id' : 'content'}).find_all(class_='topic')
    topics = [item.a.get('href') for item in topics]

    with ThreadPoolExecutor(max_workers=15) as executor:
        for topic in topics:
            executor.submit(await serialize_topic(), topic, topics)

    print('\n**************************\n')
    print(f'Total amount of articles: {len(items_list)}')


if name == '__main__':
    asyncio.run(main())

Вопрос задан 08 окт.
616 просмотров

11 комментариев

Подписаться 5 Простой 11 комментариев

Алексей Уколов @alexey-m-ukolov

а мне информация нужна прямо сейчас
А сервер-то готов в ответ на ваш DDoS услужливо всё отдать?

Написано 08 окт.
Wispik @Wispik

Смысла в aiohttp нет, если каждую страницу отдельно загружать. Создавай список тасков, например по 50 страниц и запускай их через asyncio.gather. И потоки не нужны будут

Написано 08 окт.
Павел @paulwer Автор вопроса

Алексей Уколов, да, готов) сервер отдаст

Написано 08 окт.
Павел @paulwer Автор вопроса

Wispik, хорошо, спасибо, попробую так

Написано 08 окт.
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Непонятно зачем вам multithreading, для чего делать запросы в отдельных потоках?

Написано 08 окт.
Павел @paulwer Автор вопроса

Сергей Горностаев, чтобы каждую рубрику «прочесть» параллельно.. у меня 15 рубрик, в каждой около 10000 страниц. Делать последовательно не хочется, слишком долго

Написано 08 окт.
Сергей Горностаев @sergey-gornostaev Куратор тега Python

Павел, всё ещё не вижу проблемы, читайте асинхронно, потоки вам параллелизма не добавят, только снизят.

Написано 08 окт.
dim5x @dim5x

Павел, возможно вам будет интересно: Асинхронность vs. многопоточность: что выживет в э...

Написано 08 окт.
shurshur @shurshur

Павел, несколько часов вообще не срок. Я многие сайты архивирую месяцами, соблюдая рейтлимиты. И речь идёт о миллионах страниц. Тем более если надо просто дёрнуть контент один раз, ты на программирование можешь больше времени потратить, чем оно качаться будет.

Написано 08 окт.
rPman @rPman

shurshur, если не секрет, с какой целью архивируете сайты?

Написано 08 окт.
shurshur @shurshur

rPman, иногда для себя, иногда для сохранения для истории. Например, мною были сохранены данные сайта animedia.tv, когда проект загнулся. Теперь доступно тут animedata точка sbin точка ru и тут 0000-00 точка anidubarchive точка com. Или у меня, например, есть архив форума auto.ru.

Есть целые проекты, которые активно занимаются архивацией данных, которые могут исчезнуть, например, https://ruarxive.org/ или https://wiki.archiveteam.org/

Написано 09 окт.

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

dfn33r @dfn33r

Раз советуешь TaskGroup написал бы про основное отличие от gather
Про Semaphore почему ничего не сказал?

Написано 08 окт.
Пасечник Кузьмич @Hivemaster

dfn33r, прими меры, напиши свой ответ с отличиями и семафорами.

Написано 08 окт.
Everything_is_bad @Everything_is_bad

dfn33r,
Раз советуешь TaskGroup написал бы про основное отличие от gather
такого запроса не было, но обычно достаточно почитать доки

Про Semaphore почему ничего не сказал?
потому что это уже нюансы реализации, без проблем пулял несколько тысяч запросов за раз, async такое осиливает, а вот с тредами точно будут проблемы.

Написано 08 окт.
dfn33r @dfn33r

Пасечник Кузьмич, как ты быстро сагрился, когда ткнули одного из основных токсиков тэга, ржу

Написано 21 окт.
Everything_is_bad @Everything_is_bad

dfn33r,
ткнули
ржу, от того что кто-то посчитал, что этим меня "ткнули".

Написано 21 окт.
Пасечник Кузьмич @Hivemaster

dfn33r, непонятно, где в моём предложении написать хороший ответ можно было увидеть сагривание.

Написано 28 окт.

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 200 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 242 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 157 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 131 просмотр
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 257 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 145 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 147 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 264 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 431 просмотр
1

ответ
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

а мне информация нужна прямо сейчас
А сервер-то готов в ответ на ваш DDoS услужливо всё отдать?
Смысла в aiohttp нет, если каждую страницу отдельно загружать. Создавай список тасков, например по 50 страниц и запускай их через asyncio.gather. И потоки не нужны будут
Алексей Уколов, да, готов) сервер отдаст
Wispik, хорошо, спасибо, попробую так
Непонятно зачем вам multithreading, для чего делать запросы в отдельных потоках?
Сергей Горностаев, чтобы каждую рубрику «прочесть» параллельно.. у меня 15 рубрик, в каждой около 10000 страниц. Делать последовательно не хочется, слишком долго
Павел, всё ещё не вижу проблемы, читайте асинхронно, потоки вам параллелизма не добавят, только снизят.
Павел, возможно вам будет интересно: Асинхронность vs. многопоточность: что выживет в э...
Павел, несколько часов вообще не срок. Я многие сайты архивирую месяцами, соблюдая рейтлимиты. И речь идёт о миллионах страниц. Тем более если надо просто дёрнуть контент один раз, ты на программирование можешь больше времени потратить, чем оно качаться будет.
shurshur, если не секрет, с какой целью архивируете сайты?
rPman, иногда для себя, иногда для сохранения для истории. Например, мною были сохранены данные сайта animedia.tv, когда проект загнулся. Теперь доступно тут animedata точка sbin точка ru и тут 0000-00 точка anidubarchive точка com. Или у меня, например, есть архив форума auto.ru.

Есть целые проекты, которые активно занимаются архивацией данных, которые могут исчезнуть, например, https://ruarxive.org/ или https://wiki.archiveteam.org/

Answer 1 · 2025-10-08 10:38:56

Everything_is_bad @Everything_is_bad

не нужен тут ThreadPoolExecutor, читай про create_task. Ну и сейчас рекомендуют TaskGroup, а не gather.

Ответ написан 08 окт.

6 комментариев

Как реализовать асинхронность + многопоточность одновременно?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт