Как спарсить данные если нет нормальной пагинации?

Question

s1zen @s1zen

Как спарсить данные если нет нормальной пагинации?

Сам сайт: https://series.naver.com/comic/recentList.series
Если выйти за пределы пагинации возращает на последнию страницу

До чего додумался:

page_iteration = False
    books_dict = []
    total_page = 0
    while page_iteration != True:
        total_page += 1
        async with aiohttp.ClientSession(headers=headers) as session:
            async with session.get(f"https://series.naver.com/comic/recentList.series?page={total_page}") as response:
                html = await response.text()
        
        soup = BeautifulSoup(html, "lxml")
        books_block = soup.find_all("ul", "lst_thum")
        for block in books_block:
            books = block.find_all("li")
            for book in books:
                book_url = "https://series.naver.com" + book.find("a", "NPI=a:content").get("href")
                books_dict.append({"book_url": book_url})
        with open("result.json", "a", encoding="utf-8") as file:
            json.dump(books_dict, file, indent=4, ensure_ascii=False)

Вопрос задан более трёх лет назад
78 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как бороться с отступами в сформированном шаблоне Django python?
- 2 подписчика
- 11 часов назад
- 189 просмотров
1

ответ
Python

Простой
Как правильно спроектировать эту функцию?
- 1 подписчик
- вчера
- 112 просмотров
2

ответа
Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 160 просмотров
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 134 просмотра
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 110 просмотров
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 71 просмотр
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 240 просмотров
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 137 просмотров
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 147 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 146 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2022-04-25 17:56:04

Это набросок, можно изменить под себя:

import requests
url = "https://series.naver.com/comic/recentList.series?page="
pagination_last_index = 1
while True:
  r1 = requests.get(url + str(pagination_last_index))
  r2 = requests.get(url + str(pagination_last_index + 1))

  if r1.text == r2.text:
    print(pagination_last_index)
    break

  pagination_last_index += 1

Answer 2 · 2022-04-25 17:27:50

Если последняя страница содержит полностью идентичные ссылки, что и предыдущая — предыдущая была последней

Как спарсить данные если нет нормальной пагинации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт