Задать вопрос

d_biryukovv @d_biryukovv

aiohttp

AIOHTTP

Как реализовать асинхронный парсинг новостного сайта?

Я занимаюсь парсингом новостного сайта. Всю работу можно разбить на следующие задачи:
1) GET-запрос и получение ответа в виде html-документа, содержащего ссылки на новостные статьи, а также URL на следующий подобный документ (напоминает односвязный список);
2) запрос и распаршивание каждой из новостных статей;
3) возврат к первому шагу, но уже с запросом по полученному ранее URL.
Понятно, что инициализирующий запрос из первого шага в любом случае будет блокирующим, но как конкурентно реализовать все последующие такие запросы и снова собирать таски по полученным новостным URL-ам? То есть чтобы во время парсинга новостных статей асинхронно выполнялся первый шаг, с получением из корутины нужных значений (urls, data_next; см. ниже). Показываю ситуацию на данный момент, где первый шаг проходит с использованием блокирующей функции.

tasks = []
async with aiohttp.ClientSession() as session:
    urls, data_next = get_urls(TAG_URL.format('economy'))
    while condition:
        for url in urls:
            task = asyncio.create_task(parse_page(url, session, f))
            tasks.append(task)
        await asyncio.gather(*tasks)
        urls, data_next = get_urls(data_next)

Вопрос задан более двух лет назад
165 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Фронтенд-разработчик

11 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

AIOHTTP

Простой
Почему torify+aiohttp дает ошибку «Cannot connect to host python.org:80 ssl:default [Could not contact DNS servers]»?
- 1 подписчик
- 18 мар.
- 65 просмотров
0

ответов
ВКонтакте

+2 ещё

Средний
Как создать бота vkbottle aiohttp с socks5 прокси?
- 1 подписчик
- 24 февр.
- 97 просмотров
0

ответов
API

+1 ещё

Простой
Что такое rate limit в запросах?
- 1 подписчик
- 24 дек. 2024
- 363 просмотра
1

ответ
Парсинг

+1 ещё

Простой
Почему отсутствуют данные на странице при парсинге WildBerries?
- 1 подписчик
- 14 дек. 2024
- 273 просмотра
0

ответов
SQLAlchemy

+1 ещё

Простой
Как решить ошибку aiohttp Unclosed client session?
- 1 подписчик
- 29 нояб. 2024
- 418 просмотров
1

ответ
AIOHTTP

+1 ещё

Простой
Лучший пример для использования aiohttp в веб приложениях?
- 1 подписчик
- более года назад
- 353 просмотра
1

ответ
AIOHTTP

Простой
Почему запрос с requests работает, а с aiohttp возвращает 403?
- 1 подписчик
- более года назад
- 296 просмотров
1

ответ
discord.py

+1 ещё

Простой
Как решить ошибку с клиентом aiohttp с подключением к хосту discord?
- 1 подписчик
- более года назад
- 128 просмотров
1

ответ
AIOHTTP

Простой
Как запустить каждый запрос aiohttp через разный прокси из списка?
- 1 подписчик
- более года назад
- 48 просмотров
1

ответ
Python

+1 ещё

Простой
Python aiohttp timeout, норма?
- 2 подписчика
- более года назад
- 153 просмотра
1

ответ
Показать ещё Загружается…

Python developer

IT ATLAS • Москва

До 300 000 ₽

DevOps инженер

Data World • Москва

До 200 000 ₽

Mobile-Backend QA Engineer (Automation)

SMALL

от 150 000 до 200 000 ₽