Как спарсить эту ссылку?

Question

None @robocop45

Как спарсить эту ссылку?

Нужно спарсить ссылку на страницу для каждой пары https://www.lamoda.ru/c/5972/shoes-muzhkedy/?sitel...

много раз это делал, а тут не получается

import json
import requests
from bs4 import BeautifulSoup

headers ={
    "accept": "*/*",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" ,
  
}
def get_page(url):
    req = requests.get(url,headers = headers)
    src =req.text
    #print(src) 

    with open("lamoda2.html", "w") as file:
        file.write(src) 

    soup = BeautifulSoup(src,"lxml")

    cards = soup.find("div", class_="x-product-card__card").find("div", class_="x-product-card__link x-product-card__hit-area").find("a",class_=" x-product-card__pic x-product-card__pic-catalog").get("href")
    print(cards)
    

def main():
    get_page(url="https://www.lamoda.ru/c/5972/shoes-muzhkedy/?sitelink=topmenuM&l=4&brands=1061,1163,4035,5816,2047,1107&page=1")
    
    

if __name__ == "__main__":
    main()

ошибка

File "c:/Users/Константин/Downloads/dodit/tgparser.py", line 20, in get_page
    cards = soup.find("div", class_="x-product-card__card").find("div", class_="x-product-card__link x-product-card__hit-area").find("a",class_=" x-product-card__pic x-product-card__pic-catalog").get("href")
AttributeError: 'NoneType' object has no attribute 'find'

заранее спасибо

Вопрос задан более трёх лет назад
141 просмотр

3 комментария

Подписаться 1 Простой 3 комментария

mayton2019 @mayton2019

А что у тебя покажет

print(dir(BeautifulSoup())

?

Написано более трёх лет назад
None @robocop45 Автор вопроса

mayton2019, подскажите,куда именно это нужно вставить?

Написано более трёх лет назад
mayton2019 @mayton2019
robocop45, забей уже не надо. У тебя есть длинная колбаса.

soup.find("div", class_="x-product-card__card").find("div", class_="x-product-card__link x-product-card__hit-area").find("a",class_=" x-product-card__pic x-product-card__pic-catalog").get("href")

и в этой колбасе какой-то из find() ничего не находит.

Найди сам какой. Вот это и будет ответ на вопрос.
Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

5 комментариев

None @robocop45 Автор вопроса

я вас правильно понял?

cards = soup.find("div", class_="x-product-card__link x-product-card__hit-area").find("a",class_="x-product-card__link x-product-card__hit-area")
    print(cards.text)

Написано более трёх лет назад

Elvis @Dr_Elvis Куратор тега Python
robocop45, не совсем получилось. беглым взглядом достаточно такого:

cards = soup.find("a", class_="x-product-card__link x-product-card__hit-area").get("href")
Написано более трёх лет назад
Elvis @Dr_Elvis Куратор тега Python
но это найдет только первый элемент. чтобы все - нужно так:

cards = soup.find_all("a", class_="x-product-card__link x-product-card__hit-area") for card in cards: print(card.get('href'))
Написано более трёх лет назад
None @robocop45 Автор вопроса

Elvis, спасибо, вы мой спаситель. позже изучу код подробнее /p/rtlabf417001/shoes-adidasoriginals-kedy/ попробуйте по ней прейти, у вас врядли получится, как и у меня, что делать?

Написано более трёх лет назад
None @robocop45 Автор вопроса

Elvis, все,все,я нашел рещение проблемы, просто в начале ставишь https://www.lamoda.ru/ и все, осталось это в код добавить

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- вчера
- 90 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 140 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 365 просмотров
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 212 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 139 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 132 просмотра
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 250 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 518 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 251 просмотр
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

А что у тебя покажет

print(dir(BeautifulSoup())

?
mayton2019, подскажите,куда именно это нужно вставить?
robocop45, забей уже не надо. У тебя есть длинная колбаса.

soup.find("div", class_="x-product-card__card").find("div", class_="x-product-card__link x-product-card__hit-area").find("a",class_=" x-product-card__pic x-product-card__pic-catalog").get("href")

и в этой колбасе какой-то из find() ничего не находит.

Найди сам какой. Вот это и будет ответ на вопрос.

Answer 1 · 2022-07-26 16:26:42

Потому что find ищет первый попавшийся по коду.
soup.find("div", class_="x-product-card__card")
находит первый div

.find("div", class_="x-product-card__link x-product-card__hit-area")

Этот find ищет в первом попавшемся div другой div с классами "x-product-card__link x-product-card__hit-area", но не находит. почему? потому что этот класс есть только у тега a
Вот и исключение вылетает.
то что у вас на скрине вместо a написан div - скорее всего приобразование скриптов, либо не ту ссылку дали. смотрите что у вас в req.text возвращается.

Как спарсить эту ссылку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт