Почему не парсится Wildberries beautifulsoup4?

Question

DeadOutside000 @DeadOutside000

Beautiful Soup

Почему не парсится Wildberries beautifulsoup4?

import requests
from bs4 import BeautifulSoup


URL = 'https://www.wildberries.ru/catalog/0/search.aspx?sort=popular&search=%D1%82%D0%B5%D0%BB%D0%B5%D1%84%D0%BE%D0%BD'

header = {'Accept': "*/*", 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.3.3029.62 LiteBrowser/58.3.3029.62 MRCHROME SOC Safari/537.36"}
html = requests.get(URL, headers=header)
print(html.status_code) #200
soup = BeautifulSoup(html.text, 'lxml')

imgs = soup.find_all('img', class_='j-thumbnail thumbnail')
print(imgs) # []

Не могу собрать карточки с вайлдберрис. Все что берется с сайта - это лого вб, все что ниже дает None или []. Я совсем зеленый в теме парсинга, и буду рад, если просвятите меня в чем поблема.

Вопрос задан более двух лет назад
618 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Графический дизайнер PRO

15 месяцев

Далее
Нетология

Фронтенд-разработчик

11 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 86 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 244 просмотра
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 218 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 138 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- более года назад
- 254 просмотра
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 257 просмотров
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 183 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 130 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 82 просмотра
2

ответа
Показать ещё Загружается…

UI/UX Designer (приложение для поиска подруг)

SUMMEET

от 1 000 до 1 200 $

React Native разработчик в VSRAP

VSRAP Shop • Санкт-Петербург

от 150 000 до 220 000 ₽

Системный аналитик

Bitbanker.ru

от 240 000 ₽

Answer 1 · 2023-01-03 17:15:28

потому что содержимое формируется в браузере на javascript
открой браузер, нажми f12, закладка networks и походи по сайту, изучай запросы (там можно делать поиск по содержимому, можно сохранить дамп в .har json дамп), возможно сумеешь отреверсить их логику, но учти, компания борется с этим процессом и просто не будет

многие плюют на это и используют реальный браузер и любой механизм его автоматизации, например selenium или инжект своих скриптов в страницы каким-нибудь плагином типа tempermonkey и симуляция действий пользователя

Answer 2 · 2023-01-03 17:18:24

Контент этого сайта не статический и изменяется посредством исполнения скриптов, соответственно, тебе нужно получить веб страницу, на которой эти скрипты уже отработали (bs4 в твоем случае скачивает html страницу до того как скрипты отработали).
Можно использовать Selenium , Pyppeteer , Playwright и Web Scraping API
Возможно, есть другие способы.

Почему не парсится Wildberries beautifulsoup4?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт