Парсер не считывает все страницы и не все записывает в json, что делать?

Question

Oleg_Charkov @Oleg_Charkov

Парсер не считывает все страницы и не все записывает в json, что делать?

Написал код для парсинга сайта по аренде автомобилей (rentride). Проблема в том, что парсер не считывает все страницы, либо идет какой-то бесконечный цикл + не все записывается в json (max 3 строки). Также не могу спарсить цену, тк у цены нет класса.
Ниже прикладываю мой код, HTML-разметку цены и скрины результата парсинга.

Вот код парсера:

import requests
from bs4 import BeautifulSoup
import json

url = 'https://rentride.ru/arendovat/moskva/'
params = {'page': 1}
pages = 25
n = 1

while params['page'] <= pages:
    response = requests.get(url, params=params)
    soup = BeautifulSoup(response.text, 'lxml')
    infos = soup.find_all('div', class_='main-info')

    for n, i in enumerate(infos, start=n):
        data_dict = []
        name = i.find('h4', class_='title-car').text.strip()
        stars = i.find('div', class_='rating-value').text
        comments = i.find('div', class_='car-review-count').text.strip()
        price = i.find('div', class_='car-price-info')
        print(f'{n}: {name} за {price} с оценкой {stars} и количеством отзывов:{comments}')

        last_page_num = int(soup.find_all('a', class_='no-decoration pagination-number-item')[-1].text)
        pages = last_page_num if pages < last_page_num else pages
        params['page'] +=1

    data = {
        'car': name,
        'price': price,
        'stars': stars,
        'comments': comments,
        }

    data_dict.append(data)

    with open('data_2.json', 'w') as json_file:
        json.dump(data_dict, json_file, indent=5)

HTML-разметка цены:

<div class="car-price-info"><div class="price-per-day"><span>от 
            1900&nbsp;₽ <span class="period">/ сутки</span></span> <!----></div> <!----></div>

Результат парсинга:

Вопрос задан более трёх лет назад
196 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Леонид @bravebug

С остальными ошибками думаю справитесь по Traceback

Написано более трёх лет назад
Oleg_Charkov @Oleg_Charkov Автор вопроса
Точно, спасибо большое!!!
Совсем уже глаза замылились...

Если знаете, где недочеты в коде по парсингу всех страниц и записи всего содержимого в json, подскажите, пожалуйста.
По json у меня нет идей, почему не все записывается;
а вот по парсингу всех страниц предполагаю, что это связано с установленными значениями в:

params = {'page': 1} pages = 25 n = 1

и в

last_page_num = int(soup.find_all('a', class_='no-decoration pagination-number-item')[-1].text) pages = last_page_num if pages < last_page_num else pages params['page'] +=1

Пробовал изменить код еще так, но ничего не вышло.

pages = soup.find('div', class_='pagination-number') urls = [] links = pages.find_all('a', class_='no-decoration pagination-number-item')

Каким еще образом спарсить все страницы - нет идей. Могу еще что-нибудь проглядеть из-за жары, не исключаю...))
Написано более трёх лет назад
Oleg_Charkov @Oleg_Charkov Автор вопроса

Леонид, хорошо, спасибо большое!!!

Написано более трёх лет назад
Леонид @bravebug

Настоятельно рекомендую поставить задержку на скачивание каждой последующей страницы:
from time import sleep
и в начале цикла while:
sleep(1)

иначе после некоторого количества запросов сервер может Вас забанить по IP, да и не хорошо перегружать запросами ресурс, которым пользуешься.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 11 часов назад
- 109 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 197 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 303 просмотра
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 235 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 154 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 127 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 255 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Результат парсинга опубликуйте текстом; можно обернуть тегом code; скриншоты текста не надо публиковать.
Вы не проверяете status_code после того как сделали get
response = requests.get(url, params=params)
Там скорее всего лезет 404 Not Found и надо как-то вести учет числа таких ошибок да и вообще в логике
парсера надо учитывать.

Answer 1 · 2022-07-28 23:22:06

Проблема во внимательности:
div с атрибутом class="vehicle-card-vertical-body car-info-body" на одном уровне содержит два div'а:
- div с атрибутом class="main-info"
- div с атрибутом class="car-price-info"

в переменную 'infos" изначально кладёте не те данные, в которых не возможно найти цену.

Счётчик страниц нужно увеличивать в цикле while после выхода из цикла for, иначе вы скачиваете сначала первую страницу, потом 21ую, а 41ой уже не существует (в точных цифрах могу ошибаться)

Настоятельно рекомендую поставить задержку на скачивание каждой последующей страницы:
from time import sleep
и в начале цикла while:
sleep(1)

По JSON нужно смотреть, что за ошибка.
Если:

...
TypeError: Object of type Tag is not JSON serializable

Значит Вы скорее всего пытаетесь сохранить в JSON какой-то объект bs4, который JSON не поддерживает.
Надо предварительно конвертировать его в поддерживаемый тип данных.

Парсер не считывает все страницы и не все записывает в json, что делать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт