Ошибка в коде парсера Ozon, что не так?

Question

Decrement @Decrement

Ошибка в коде парсера Ozon, что не так?

У меня есть следующий код:

import time
import json

from selenium import webdriver
from selenium_stealth import stealth
from bs4 import BeautifulSoup

from curl_cffi import requests

def init_webdriver():
    driver = webdriver.Chrome()
    stealth(driver,
            languages=["en-US", "en"],
            vendor="Google Inc.",
            platform="Win32",
            webgl_vendor="Intel Inc.",
            renderer="Intel Iris OpenGL Engine",
            fix_hairline=True)
    driver.maximize_window()
    return driver

def scrolldown(driver, deep):
    for _ in range(deep):
        driver.execute_script('window.scrollBy(0, 500)')
        time.sleep(0.1)

def get_product_info(product_url):
    session = requests.Session()

    raw_data = session.get("https://www.ozon.ru/api/composer-api.bx/page/json/v2?url=" + product_url)
    json_data = json.loads(raw_data.content.decode())

    full_name = json_data["seo"]["title"]

    if json_data["layout"][0]["component"] == "userAdultModal":
        product_id = str(full_name.split()[-1])[1:-1]
        print(product_id, full_name)
        return (product_id, full_name, "Товар для лиц старше 18 лет", None, None)
    else:
        description = json.loads(json_data["seo"]["script"][0]["innerHTML"])["description"]
        image_url = json.loads(json_data["seo"]["script"][0]["innerHTML"])["image"]
        price = json.loads(json_data["seo"]["script"][0]["innerHTML"])["offers"]["price"] + " " +\
                json.loads(json_data["seo"]["script"][0]["innerHTML"])["offers"]["priceCurrency"]
        rating = json.loads(json_data["seo"]["script"][0]["innerHTML"]["ratingValue"])
        rating_counter = json.loads(json_data["seo"]["script"][0]["innerHTML"]["reviewCount"])
        product_id = json.loads(json_data["seo"]["script"][0]["innerHTML"])["sku"]

        return (product_id, full_name, description, price, rating, rating_counter, image_url)


def get_searchpage_cards(driver, url, all_cards = []):
    driver.get(url)
    scrolldown(driver, 20)
    search_page_html = BeautifulSoup(driver.page_source, "html.parser")

    content = search_page_html.find("div", {"id": "layoutPage"})
    content = content.find("div")

    content_with_cards = content.find("div", {"class": "widget-search-result-container"})
    content_with_cards = content_with_cards.find("div").findChildren(recursive=False)

    cards_in_page = list()
    for card in content_with_cards:
        card_url = card.find("a", href=True)["href"]
        card_name = card.find("span", {"class": "tsBody500Medium"}).contents[0]

        product_url = "https://ozon.ru/" + card_url

        product_id, full_name, description, price, rating, rating_counter, image_url = get_product_info(card_url)
        card_info = {product_id: {"short_name": card_name,
                                  "full_name": full_name,
                                  "description": description,
                                  "url": product_url,
                                  "rating": rating,
                                  "rating_counter": rating_counter,
                                  "price": price,
                                  "image_url": image_url
                                  }
                     }
        cards_in_page.append(card_info)
        print(product_id, "- DONE")

    content_with_next = [div for div in content.find_all("a", href=True) if "Дальше" in str(div)]
    if not content_with_next:
        return cards_in_page
    else:
        next_page_url = "https://www.ozon.ru" + content_with_next[0]["href"]
        all_cards.extend(get_searchpage_cards(driver, next_page_url, cards_in_page))
        return all_cards


if __name__ == "__main__":
    url_ozon = "https://www.ozon.ru"

    driver = init_webdriver()

    search_list = ["Шарф", "Шапка", "Кепка"]
    end_list = list()


    for search_tag in search_list:
        url_search = f"https://www.ozon.ru/search/?text={search_tag}&from_global=true"

        search_cards = get_searchpage_cards(driver, url_search)
        print("Я успешно нашёл", len(search_cards), "по поиску", search_tag)
        end_list.append(search_tag)
    print(end_list)

    driver.quit()

При его запуске выдаёт ошибку:

Дело в том, что раньше всё работало, и я не могу найти ничего, что бы поменялось, однако он не может найти "div"

Вопрос задан 26 июл. 2025
277 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Wispik @Wispik

Вряд ли кто-то за тебя будет это запускать и дебажить. Расставь банальные принты и посмотри, почему none возвращает

Написано 26 июл. 2025
VoidVolker @VoidVolker

Decrement https://qna.habr.com/help/rules#3.8

Написано 26 июл. 2025
imasdf @imasdf

Смею предположить, что контент на Ozon подгружается динамически и когда ты хочешь получить определенный div, на сайте еще не был добавлен данный div

Написано 26 июл. 2025
dim5x @dim5x

Поменялась вёрстка и нет родительского класса widget-search-result-container.

Написано 26 июл. 2025

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Средний
Web scaping с использованием C++ для wb. Какие библиотеки подойдут?
- 1 подписчик
- 20 дек. 2025
- 84 просмотра
1

ответ
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 422 просмотра
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 312 просмотров
1

ответ
Selenium

Средний
Как пройти ReCaptcha V3?
- 1 подписчик
- 26 нояб. 2025
- 127 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 669 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 440 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт. 2025
- 223 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент. 2025
- 301 просмотр
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент. 2025
- 209 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент. 2025
- 218 просмотров
3

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 250 000 до 500 000 ₽

Вряд ли кто-то за тебя будет это запускать и дебажить. Расставь банальные принты и посмотри, почему none возвращает
Смею предположить, что контент на Ozon подгружается динамически и когда ты хочешь получить определенный div, на сайте еще не был добавлен данный div
Поменялась вёрстка и нет родительского класса widget-search-result-container.

Ошибка в коде парсера Ozon, что не так?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт