Почему не парсится Wildberries beautifulsoup4?

Question

DeadOutside000 @DeadOutside000

Beautiful Soup

Почему не парсится Wildberries beautifulsoup4?

import requests
from bs4 import BeautifulSoup


URL = 'https://www.wildberries.ru/catalog/0/search.aspx?sort=popular&search=%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD'

header = {'Accept': "*/*", 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.3.3029.62 LiteBrowser/58.3.3029.62 MRCHROME SOC Safari/537.36"}
html = requests.get(URL, headers=header)
print(html.status_code) #200
soup = BeautifulSoup(html.text, 'lxml')

imgs = soup.find_all('img', class_='j-thumbnail thumbnail')
print(imgs) # []

Не могу собрать карточки с вайлдберрис. Все что берется с сайта - это лого вб, все что ниже дает None или []. Я совсем зеленый в теме парсинга, и буду рад, если просвятите меня в чем поблема.

Вопрос задан более года назад
374 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Простой
Как спарсить то что находится под br?
- 1 подписчик
- 03 апр.
- 111 просмотров
1

ответ
Python

+4 ещё

Простой
При парсинг в учебных заданий ajax данных выдаем Response 403, что сделать, чтобы получить данные?
- 1 подписчик
- 03 мар.
- 73 просмотра
0

ответов
Python

+2 ещё

Простой
Как достать ссылки на страницы при парсинге?
- 1 подписчик
- 27 февр.
- 110 просмотров
2

ответа
Python

+2 ещё

Простой
Как исправить ошибку invalid literal for int() with base 10: '0 из 90'?
- 1 подписчик
- 12 февр.
- 63 просмотра
1

ответ
Beautiful Soup

+1 ещё

Простой
Как на странице найти определенный текст requests?
- 1 подписчик
- 18 янв.
- 31 просмотр
1

ответ
Beautiful Soup

+1 ещё

Простой
Как найти текст по xpath в requests?
- 1 подписчик
- 17 янв.
- 32 просмотра
1

ответ
Beautiful Soup

Простой
Как получить тег из закомментированного блока?
- 1 подписчик
- 09 янв.
- 32 просмотра
1

ответ
Python

+2 ещё

Простой
В чем ошибка Python хостинг?
- 1 подписчик
- 12 дек. 2023
- 105 просмотров
1

ответ
Python

+2 ещё

Простой
Не работает парсер на pyhton bs4, что делать?
- 1 подписчик
- 20 нояб. 2023
- 117 просмотров
1

ответ
Selenium

+1 ещё

Простой
Почему парсер считывает всегда рандомное число обьявлений у пользователя, и как сделать так чтобы он мог нормально их считыывать?
- 1 подписчик
- 13 нояб. 2023
- 60 просмотров
1

ответ
Показать ещё Загружается…

Руководитель отдела тестирования/QA Lead

Uniscan Research • Новосибирск

от 175 000 до 210 000 ₽

Senior .NET Core developer

Spatium Software • Каир

от 250 000 до 300 000 ₽

Kotlin Backend-разработчик

vivaCRM • Москва

от 200 000 до 250 000 ₽

Услуги devops разного характера для видео сервиса

26 апр. 2024, в 06:46

1000 руб./в час

Найти ошибку flutter_map

26 апр. 2024, в 05:31

1000 руб./за проект

Разработать электронику для весов с Wi-Fi

26 апр. 2024, в 01:22

1000 руб./в час

Answer 1 · 2023-01-03 17:15:28

потому что содержимое формируется в браузере на javascript
открой браузер, нажми f12, закладка networks и походи по сайту, изучай запросы (там можно делать поиск по содержимому, можно сохранить дамп в .har json дамп), возможно сумеешь отреверсить их логику, но учти, компания борется с этим процессом и просто не будет

многие плюют на это и используют реальный браузер и любой механизм его автоматизации, например selenium или инжект своих скриптов в страницы каким-нибудь плагином типа tempermonkey и симуляция действий пользователя

Answer 2 · 2023-01-03 17:18:24

Контент этого сайта не статический и изменяется посредством исполнения скриптов, соответственно, тебе нужно получить веб страницу, на которой эти скрипты уже отработали (bs4 в твоем случае скачивает html страницу до того как скрипты отработали).
Можно использовать Selenium , Pyppeteer , Playwright и Web Scraping API
Возможно, есть другие способы.

Почему не парсится Wildberries beautifulsoup4?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт