Этот вопрос закрыт для ответов, так как повторяет вопрос Как спарсить эту ссылку?
@robocop45

Почему не сохранилась часть данных в html и json?

Парсю сайт, ламоды. надо сохранить в html, а далее json. Я СТАРАЮСЬ СОХРАНИТЬ СРАЗУ 2 СТРАНИЦЫ САЙТА пробовал менять разные значения в поле сайта. Все рано сохраняется не все. Вот сайт,кому интересно https://www.lamoda.ru/c/5972/shoes-muzhkedy/?sitel...62e0209631422989877115.jpeg62e0209d9dd05192526527.jpeg
мой код
import json
import requests
from bs4 import BeautifulSoup

headers ={
    "accept": "*/*",
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" ,
  
}
def get_page(url):
    req = requests.get(url,headers = headers)
    src =req.text
    #print(src) 

    with open("lamoda5.html", "w") as file:
        file.write(src) 

    soup = BeautifulSoup(src,"lxml")

    cards = soup.find_all("a", class_="x-product-card__link x-product-card__hit-area")
    all_categories_dict ={}
   

    for card in cards:
        card_text = card.text
        card_href = "https://www.lamoda.ru/" + card.get('href')
        #print(card_href)
        all_categories_dict[card_text] = card_href
    with open ("resutllamoda1.json", "w") as file:
        json.dump (all_categories_dict, file, indent=4, ensure_ascii=False )

        

        

def main():
    get_page(url="https://www.lamoda.ru/c/5972/shoes-muzhkedy/?sitelink=topmenuM&l=4&brands=1061,1163,4035,2047,1107&is_sale=1&sort=discount")
    
    

if __name__ == "__main__":
    main()
  • Вопрос задан
  • 93 просмотра
Решения вопроса 1
sergey-gornostaev
@sergey-gornostaev Куратор тега Python
Седой и строгий
Начать забавы ради считать такие вопросы что ли? Во-первых, на современных сайтах часть контента подгружается динамически JavaScript'ом, так что парсеры этих данных не видят. Во-вторых, почти все сайты от парсинга защищаются.
Ответ написан
Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.
Похожие вопросы