Как получить данные с 2 сайтов в один item Scrapy в одном пауке?

Question

Megos @Megos

Scrapy

Как получить данные с 2 сайтов в один item Scrapy в одном пауке?

Первый паук собирает данные и урлы с одного сайта, второй должен пройти по собранным урлам и дополнить данные в тех же айтемах с другого сайта. Но получается либо сохранить данные первого паука, либо только второго.

def parse(self, response): 

        l = ItemLoader(item=Product(), response=response)
        l.add_value('product_url', response.url)
        l.add_xpath('category', '//p/a[contains....')
        l.add_xpath('name', '/html/body/...' )
        
        l.add_value('new_link', new_link)

        yield Request(url=new_link, callback=self.parse_steam, meta={'item': l})

    def parse_steam(self, response):

        l2 = response.meta['item']
        l2.add_xpath('new_links', '//div[@id="search/@href')

        yield l2.load_item()

Так сохраняет данные только первого. Но если тут `l2.add_xpath('new_links', '//div[@id="search/@href')` вместо xpath указать значение, то сохраняет все.

Если заменить `l2 = response.meta['item']` на `l2 = ItemLoader(item=Product(), response=response)`, то парсит урлы из первого паука, но сохраняет данные только второго.

Как сохранить все данные?

Вопрос задан более трёх лет назад
74 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Можно ли скрапить телеграмм?
- 1 подписчик
- более года назад
- 376 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как найти источник данных этого сайта?
- 1 подписчик
- более года назад
- 263 просмотра
1

ответ
HTML

+2 ещё

Простой
Как вытянуть значение из парсера на c#?
- 1 подписчик
- более года назад
- 168 просмотров
1

ответ
Scrapy

Средний
Как сделать так чтобы в scrapy, парсились дубликаты ссылок? То есть так чтобы каждая спаршенная ссылка, должна создать уникальный файл. Как?
- 1 подписчик
- более двух лет назад
- 123 просмотра
1

ответ
Python

+1 ещё

Простой
Как в Scrapy сохранить результат в JSON при запуске из скрипта?
- 1 подписчик
- более двух лет назад
- 152 просмотра
1

ответ
Scrapy

Простой
Как обратиться к элементу sitemap.xml через Scrapy?
- 1 подписчик
- более двух лет назад
- 41 просмотр
0

ответов
Scrapy

Простой
Почему Scrapy не сохраняет результат?
- 1 подписчик
- более двух лет назад
- 57 просмотров
0

ответов
Scrapy

Простой
Как использовать несколько методов в scrapy?
- 1 подписчик
- более двух лет назад
- 94 просмотра
0

ответов
Scrapy

Простой
Почему при парсинге Озона выдает только первые 4 значения?
- 1 подписчик
- более трёх лет назад
- 298 просмотров
0

ответов
WordPress

+2 ещё

Простой
Не загружается файл импорта WooCommerce?
- 1 подписчик
- более трёх лет назад
- 81 просмотр
0

ответов
Показать ещё Загружается…

Координатор заявок service desk

ИТ-Холдинг Т1 • Самара

от 45 000 до 45 000 ₽

Руководитель проектов по цифровому развитию клиентов в сфере недвижимости (CSM)

Сбер • Санкт-Петербург

от 200 000 ₽

Программист встраиваемого ПО

ДМС Передовые Технологии • Москва

от 240 000 ₽

Answer 1 · 2022-07-06 00:41:13

Все данные с одного сайта передавать по "цепочке" на другой в словаре (cb_kwargs или meta)....

def start_requests(self):
    yield scrapy.Request(
                url=url_1,
                callback=self.parse
            )

def parse(self, response, **cb_kwargs):
    cb_kwargs['some_data'] = response.css('title::text').get()
    yield scrapy.Request(
                url=new_url,
                callback=self.parse_2,
                cb_kwargs=cb_kwargs
            )
def parse_2(self, response, **cb_kwargs):
    print(f"Title from first site {cb_kwargs['some_data']}")
    print(f"Title from second site {response.css('title::text').get()}")

Как получить данные с 2 сайтов в один item Scrapy в одном пауке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт