Scrapy — множественные страницы в единственный item

Question

xwild @xwild

Scrapy — множественные страницы в единственный item

Здравствуйте,
нужно добавить в item, основная информация для которого получается из главного response, дополнительные поля, которые находятся во внешних ссылках, например .js, другие url.

Вот чего я достиг после 5 часов чтения документации и stackoverflow, здесь парсится главная страница google, и в item добавляется словарь page_size, в котором содержатся url страниц, которые есть в google.com и их размер в байтах.

{'page_size': [{'http://support.google.com/accounts/?hl=ru': 50526}]}

{'page_size': [{'http://support.google.com/accounts/?hl=ru': 50526},
               {'http://www.google.com/intl/ru/policies/privacy/': 37644}]}

и т.д.

То есть в результате возвращаются все шаги по обновлению item до финального состояния, мне нужна только последняя итерация, а еще лучше было бы получать всю информацию в конце метода parse_item.
Есть ли какой-нибудь нормальный способ это сделать?

Заранее благодарен, ниже код про который идет речь.

class TestSpider(CrawlSpider):
    name = 'test'
    allowed_domains = ['google.com', 'google.ru']
    start_urls = ['https://www.google.com/',]
    rules = (
                Rule(SgmlLinkExtractor(allow=(r'https://www.google')),
                                       callback='parse_item',
                                       follow=False),
            )

def get_page_size(self, response):
    item = response.meta['item']
    if 'page_size' not in item:
        item['page_size'] = list()

    item['page_size'].append({
                              response.url:
                              len(response.body)
                            })
    yield item

def parse_item(self, response):
    item = TestProduct()
    doc = leaf.parse(response.body)

    for url in doc('a'):
        if 'href' not in url.attrib:
            continue

        url = url.attrib['href']
        if url.find('http:') != 0:
            continue

        request = Request(url, callback=self.get_page_size)
        request.meta['item'] = item
        yield request

Вопрос задан более трёх лет назад
3419 просмотров

1 комментарий

Подписаться 3 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 182 просмотра
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 230 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 151 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 125 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 145 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Другими словами еще раз:

Нужно открыть страницу, пройти по url которые есть внутри этой страницы, собрать информацию и записать ее в поля.
Все должно возвращаться в виде одного результата.

Answer 1 · 2013-04-19 20:31:46

Можно сделать так: добавлять запросы на получение размера по одному — get_page_size вызывает следующий get_page_size и т.д., пока что-то еще есть в очереди. Последний в цепочке возвращает элемент. «Очередь» можно передавать через meta.

Я не спец — возможно, есть варианты и лучше.

Scrapy — множественные страницы в единственный item

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт