Задать вопрос

d_biryukovv @d_biryukovv

aiohttp

AIOHTTP

Как реализовать асинхронный парсинг новостного сайта?

Я занимаюсь парсингом новостного сайта. Всю работу можно разбить на следующие задачи:
1) GET-запрос и получение ответа в виде html-документа, содержащего ссылки на новостные статьи, а также URL на следующий подобный документ (напоминает односвязный список);
2) запрос и распаршивание каждой из новостных статей;
3) возврат к первому шагу, но уже с запросом по полученному ранее URL.
Понятно, что инициализирующий запрос из первого шага в любом случае будет блокирующим, но как конкурентно реализовать все последующие такие запросы и снова собирать таски по полученным новостным URL-ам? То есть чтобы во время парсинга новостных статей асинхронно выполнялся первый шаг, с получением из корутины нужных значений (urls, data_next; см. ниже). Показываю ситуацию на данный момент, где первый шаг проходит с использованием блокирующей функции.

tasks = []
async with aiohttp.ClientSession() as session:
    urls, data_next = get_urls(TAG_URL.format('economy'))
    while condition:
        for url in urls:
            task = asyncio.create_task(parse_page(url, session, f))
            tasks.append(task)
        await asyncio.gather(*tasks)
        urls, data_next = get_urls(data_next)

Вопрос задан более двух лет назад
163 просмотра

2 комментария

Подписаться 1 Простой 2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

AIOHTTP

Простой
Почему torify+aiohttp дает ошибку «Cannot connect to host python.org:80 ssl:default [Could not contact DNS servers]»?
- 1 подписчик
- 18 мар.
- 35 просмотров
0

ответов
ВКонтакте

+2 ещё

Средний
Как создать бота vkbottle aiohttp с socks5 прокси?
- 1 подписчик
- 24 февр.
- 75 просмотров
0

ответов
API

+1 ещё

Простой
Что такое rate limit в запросах?
- 1 подписчик
- 24 дек. 2024
- 252 просмотра
1

ответ
Парсинг

+1 ещё

Простой
Почему отсутствуют данные на странице при парсинге WildBerries?
- 1 подписчик
- 14 дек. 2024
- 208 просмотров
0

ответов
SQLAlchemy

+1 ещё

Простой
Как решить ошибку aiohttp Unclosed client session?
- 1 подписчик
- 29 нояб. 2024
- 241 просмотр
1

ответ
AIOHTTP

+1 ещё

Простой
Лучший пример для использования aiohttp в веб приложениях?
- 1 подписчик
- 07 нояб. 2024
- 221 просмотр
1

ответ
AIOHTTP

Простой
Почему запрос с requests работает, а с aiohttp возвращает 403?
- 1 подписчик
- 28 авг. 2024
- 271 просмотр
1

ответ
discord.py

+1 ещё

Простой
Как решить ошибку с клиентом aiohttp с подключением к хосту discord?
- 1 подписчик
- 16 авг. 2024
- 91 просмотр
1

ответ
AIOHTTP

Простой
Как запустить каждый запрос aiohttp через разный прокси из списка?
- 1 подписчик
- 27 мая 2024
- 38 просмотров
1

ответ
Python

+1 ещё

Простой
Python aiohttp timeout, норма?
- 2 подписчика
- 24 мая 2024
- 141 просмотр
1

ответ
Показать ещё Загружается…

Backend Python developer

HR Prime • Москва

от 300 000 до 3 800 000 ₽

Intern It-recruiter

Wanted. • Москва

от 60 000 до 120 000 ₽

ML-инженер (удаленно)

Wanted. • Санкт-Петербург

До 200 000 ₽