Задать вопрос

Vlad_beg @Vlad_beg

python

Как спарсить динамический сайт при помощи Scrapy?

Подскажите пожалуйста, почему при парсинге некоторых ссылок контент парситься нормально а другие возращают `None` по всем полям, просмотрев в браузрере таб `Network` вижу что контент возвращается в `JSON` формате. Как правильно спарсить контент с данного сайта?
Заранее спасибо!

class DynamicSpider(scrapy.Spider):
name = 'products'
url = [
    'https://www.lazada.sg/products/esogoal-tactical-sling-bag-outdoor-chest-pack-shoulder-backpack-military-sport-bag-for-trekking-camping-hiking-rover-sling-daypack-for-men-women-i204814494-s353896924.html?mp=1',
    'https://www.lazada.sg/products/esogoal-selfie-stick-tripod-extendable-selfie-stick-monopod-with-integrated-tripod-and-bluetooth-remote-shutter-wireless-selfie-stick-tripod-for-cellphonecameras-i205279097-s309050125.html?mp=1',
    'https://www.lazada.sg/products/esogoal-mini-umbrella-travel-umbrella-sun-rain-umbrella8-ribs-98cm-big-surface-lightweight-compact-parasol-uv-protection-for-men-women-i204815487-s308312226.html?mp=1',
    'https://www.lazada.sg/products/esogoal-2-in-1-selfie-stick-tripod-bluetooth-selfie-stand-with-remote-shutter-foldable-tripod-monopod-i279432816-s436738661.html?mp=1',
]

script = """
    function main(splash, args)
      assert(splash:go(args.url))
      assert(splash:wait(2.5))
      return {
        html = splash:html()
      }
    end
"""

def start_requests(self):
    for link in self.url:
        yield SplashRequest(
            url=link,
            callback=self.parse,
            endpoint='execute',
            args={'wait': 1.5, 'lua_source': self.script},
            dont_filter=True,
        )

def parse(self, response):
    yield {
        'title': response.xpath("//span[@class='pdp-mod-product-badge-title']/text()").extract_first(),
        'price': response.xpath("//span[contains(@class, 'pdp-price')]/text()").extract_first(),
        'description': response.xpath("//div[@id='module_product_detail']/h2/text()").extract_first()
    }

Вопрос задан более трёх лет назад
1276 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

dimonchik2013

Dimonchik @dimonchik2013

non progredi est regredi

https://habr.com/ru/post/312816/

Ответ написан более трёх лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Python клон проекта, как создать?
- 1 подписчик
- 18 часов назад
- 107 просмотров
1

ответ
Python

+2 ещё

Простой
Как добавить опцию в контекстное меню для Internet Shortcuts?
- 1 подписчик
- 30 июл.
- 114 просмотров
1

ответ
Python

+2 ещё

Простой
Как в Pyrogram получить id отправленного сообщения?
- 1 подписчик
- 30 июл.
- 61 просмотр
1

ответ
Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 227 просмотров
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 26 июл.
- 137 просмотров
2

ответа
Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 24 июл.
- 185 просмотров
1

ответ
Python

Простой
Почему не получается создать профиль в программе Dolphin{anty}?
- 1 подписчик
- 24 июл.
- 87 просмотров
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 260 просмотров
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 22 июл.
- 142 просмотра
1

ответ
Python

Простой
Почему AnaConda или MiniConda автоматически самоликвидируется на win10?
- 1 подписчик
- 22 июл.
- 129 просмотров
0

ответов
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽