Парсер OZON выдает пустой список в таблицу Excel, в чем проблема кода?

Question

gnsd @gnsd

Парсер OZON выдает пустой список в таблицу Excel, в чем проблема кода?

import requests
import openpyxl
from bs4 import BeautifulSoup

# Запрос у пользователя названия категорий для поиска
categories = input("Введите категории товаров через запятую: ").split(",")

# Запрос у пользователя минимальной и максимальной цены для поиска товаров
min_price = int(input("Введите минимальную цену товара: "))
max_price = int(input("Введите максимальную цену товара: "))

# Создание пустого Excel-файла
wb = openpyxl.Workbook()
ws = wb.active
ws.append(["Название товара", "Цена со скидкой", "Цена без скидки", "Имя продавца", "Оценка товара", "Количество отзывов"])

# Определение URL-адреса страницы OZON
url = f"https://www.ozon.ru/category/{'+'.join(categories)}/"

# Параметры запроса для сортировки по цене
params = {
    "price": "1",
    "sort": "price"
}

# Запрос страницы и ее парсинг
response = requests.get(url, params=params)
soup = BeautifulSoup(response.content, "html.parser")

# Поиск всех товаров на странице
products = soup.find_all("div", {"class": "b5v6"})

# Обработка всех найденных товаров
for product in products:
    # Получение данных о товаре
    title = product.find("a", {"class": "a0c6"}).get("title")
    seller = product.find("a", {"class": "a8c9"}).text.strip()
    discount_price = product.find("div", {"class": "a6f8"}).text.strip()
    original_price = product.find("div", {"class": "b5v8"}).text.strip()
    rating = product.find("div", {"class": "a8e9"}).text.strip()
    reviews = product.find("div", {"class": "a8e0"}).text.strip()

    # Проверка, соответствует ли цена заданным параметрам
    price = int(discount_price.replace(" ", "")) if discount_price else int(original_price.replace(" ", ""))
    if min_price <= price <= max_price:
        # Запись данных в Excel-файл
        ws.append([title, discount_price, original_price, seller, rating, reviews])

# Сохранение Excel-файла
wb.save("C:/Users/admin/Documents/ozon.xlsx")

Вопрос задан более двух лет назад
375 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как создать task в __init__ asyncio?
- 1 подписчик
- вчера
- 356 просмотров
1

ответ
Python

Простой
Какой способ эффективнее при объединении двух словарей?
- нет подписчиков
- 06 мая
- 219 просмотров
1

ответ
Python

Простой
Автоматизация входа на устройство через Jumphost с целью передачи команд?
- 1 подписчик
- 06 мая
- 96 просмотров
1

ответ
Python

+1 ещё

Простой
В ffmpeg неправильно считывается имя пользователя, он видит в нем цифру и начинает ее раскладывать, как пофиксить?
- 1 подписчик
- 06 мая
- 129 просмотров
1

ответ
Python

+2 ещё

Средний
Бот долго отвечает сообщением, где фото+текст. Как исправить?
- 1 подписчик
- 05 мая
- 189 просмотров
1

ответ
Python

Простой
Как добавить в дату, записанную в строке, нули перед месяцем и днём?
- 1 подписчик
- 05 мая
- 173 просмотра
4

ответа
Python

Простой
Как завершить работу консольного приложения?
- 1 подписчик
- 04 мая
- 189 просмотров
1

ответ
Python

+1 ещё

Средний
В Coqui TTS есть поддержка русского языка для озвучки текста?
- 1 подписчик
- 04 мая
- 82 просмотра
1

ответ
Python

Простой
Как запустить VapourSynth-Editor?
- 1 подписчик
- 03 мая
- 81 просмотр
0

ответов
Python

Простой
Почему ошибка в терминале?
- 1 подписчик
- 03 мая
- 159 просмотров
0

ответов
Показать ещё Загружается…

Python-разработчик

BCraft

от 2 000 до 3 500 $

Python разработчик Senior

Туроператор «Русь» • Москва

от 200 000 до 300 000 ₽

Python разработчик

DevTeam.Space • Москва

от 1 500 до 3 000 $

Answer 1 · 2023-04-28 02:56:55

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Седой и строгий

В том, что он не учитывает ни принципы современной web- разработки, ни наличие защиты от парсинга.

Ответ написан более двух лет назад

Комментировать

Answer 2 · 2023-04-28 11:42:36

Проверь, что тебе вернул BeautifulSoup, есть ли в его ответе нужные div и a.
Вполне возможно что наименования классов изменились, или в ответе нет в принципе товаров, например стоит защита от таких парсеров либо код html формируется в браузере скриптом а не на сервере и т.п.

Настоятельно рекомендую не мучиться, и работать с полноценным браузером (например selenium или инжектить скрипт в обычный браузер плагином типа greasemonkey) а не такими примитивными техниками как BeautifulSoup, тогда тебе будет не важно, как защищается площадка (почти, существуют способы защиты и от этого), в конечном счете ты должен будешь симулировать поведение обычного пользователя на обычном браузере, выдерживать паузы, возекать и кликать мышкой и прочее.

Парсер OZON выдает пустой список в таблицу Excel, в чем проблема кода?

Войдите, чтобы написать ответ

Как создать task в init asyncio?

Какой способ эффективнее при объединении двух словарей?

Автоматизация входа на устройство через Jumphost с целью передачи команд?

В ffmpeg неправильно считывается имя пользователя, он видит в нем цифру и начинает ее раскладывать, как пофиксить?

Бот долго отвечает сообщением, где фото+текст. Как исправить?

Как добавить в дату, записанную в строке, нули перед месяцем и днём?

Как завершить работу консольного приложения?

В Coqui TTS есть поддержка русского языка для озвучки текста?

Как запустить VapourSynth-Editor?

Почему ошибка в терминале?

Минуточку внимания

Парсер OZON выдает пустой список в таблицу Excel, в чем проблема кода?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт