Парсер OZON выдает пустой список в таблицу Excel, в чем проблема кода?

Question

gnsd @gnsd

Парсер OZON выдает пустой список в таблицу Excel, в чем проблема кода?

import requests
import openpyxl
from bs4 import BeautifulSoup

# Запрос у пользователя названия категорий для поиска
categories = input("Введите категории товаров через запятую: ").split(",")

# Запрос у пользователя минимальной и максимальной цены для поиска товаров
min_price = int(input("Введите минимальную цену товара: "))
max_price = int(input("Введите максимальную цену товара: "))

# Создание пустого Excel-файла
wb = openpyxl.Workbook()
ws = wb.active
ws.append(["Название товара", "Цена со скидкой", "Цена без скидки", "Имя продавца", "Оценка товара", "Количество отзывов"])

# Определение URL-адреса страницы OZON
url = f"https://www.ozon.ru/category/{'+'.join(categories)}/"

# Параметры запроса для сортировки по цене
params = {
    "price": "1",
    "sort": "price"
}

# Запрос страницы и ее парсинг
response = requests.get(url, params=params)
soup = BeautifulSoup(response.content, "html.parser")

# Поиск всех товаров на странице
products = soup.find_all("div", {"class": "b5v6"})

# Обработка всех найденных товаров
for product in products:
    # Получение данных о товаре
    title = product.find("a", {"class": "a0c6"}).get("title")
    seller = product.find("a", {"class": "a8c9"}).text.strip()
    discount_price = product.find("div", {"class": "a6f8"}).text.strip()
    original_price = product.find("div", {"class": "b5v8"}).text.strip()
    rating = product.find("div", {"class": "a8e9"}).text.strip()
    reviews = product.find("div", {"class": "a8e0"}).text.strip()

    # Проверка, соответствует ли цена заданным параметрам
    price = int(discount_price.replace(" ", "")) if discount_price else int(original_price.replace(" ", ""))
    if min_price <= price <= max_price:
        # Запись данных в Excel-файл
        ws.append([title, discount_price, original_price, seller, rating, reviews])

# Сохранение Excel-файла
wb.save("C:/Users/admin/Documents/ozon.xlsx")

Вопрос задан более трёх лет назад
405 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 234 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 251 просмотр
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 89 просмотров
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 108 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 101 просмотр
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 123 просмотра
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 472 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1013 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 327 просмотров
1

ответ
Python

Простой
Как написать правильный код Pyhton?
- 1 подписчик
- 22 февр.
- 557 просмотров
2

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Answer 1 · 2023-04-28 02:56:55

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Седой и строгий

В том, что он не учитывает ни принципы современной web- разработки, ни наличие защиты от парсинга.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2023-04-28 11:42:36

Проверь, что тебе вернул BeautifulSoup, есть ли в его ответе нужные div и a.
Вполне возможно что наименования классов изменились, или в ответе нет в принципе товаров, например стоит защита от таких парсеров либо код html формируется в браузере скриптом а не на сервере и т.п.

Настоятельно рекомендую не мучиться, и работать с полноценным браузером (например selenium или инжектить скрипт в обычный браузер плагином типа greasemonkey) а не такими примитивными техниками как BeautifulSoup, тогда тебе будет не важно, как защищается площадка (почти, существуют способы защиты и от этого), в конечном счете ты должен будешь симулировать поведение обычного пользователя на обычном браузере, выдерживать паузы, возекать и кликать мышкой и прочее.

Парсер OZON выдает пустой список в таблицу Excel, в чем проблема кода?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт