Scrapy: как передать ссылку в функцию, чтобы она ее, в свою очередь, отослала в Selector?

Question

JRazor @JRazor

Senior StarkOverFlow Programmer

Scrapy: как передать ссылку в функцию, чтобы она ее, в свою очередь, отослала в Selector?

Здраствуйте, уважаемые тостеровцы.

При построении паука наткнулся на одну интересную вещь - нужно передать ссылку в функцию, чтобы она ее, в свою очередь, отослала в Selector. Перепробовал уже все доступные Response и Request методы Scrapy, но данные не приходят.

Кусочек кода для понимания:

start_urls = [
        "http://www.site.ru/"
    ]

    # Парсим start_urls и получаем список ссылок на каталоги
    def parse(self, response):  
        sel = Selector(response)
        self.links = sel.xpath('//*[@id="col-01"]/div/div/ul/li/a/@href').extract()

    # Парсим каждый каталог и получаем список ссылок на элементы каталога
    def parse_catalog(self, response): 
        sel = Selector(response)
        elements = sel.xpath('//*[@id="col-01"]/div[1]/ul[1]/
                                        li[4]/div[2]/strong/text()').extract()[0]
        links_auto = sel.xpath('//div[@class="car-detail-list"]/a/@href').extract()

        # Отправляем ссылку на парсинг страницы
        for link in links_auto:
            self.parse_page(link)

    def parse_page(self, link):
        response = <b>???</b>(link) # Обрабатываем ссылку, но чем?
        self.sel = Selector(response)

Вопрос задан более трёх лет назад
2962 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- вчера
- 125 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 211 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 143 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 111 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 246 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 133 просмотра
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 138 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 140 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 256 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 425 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2014-02-13 15:08:59

Не нужно вызывать никакие методы у Request. Scrapy сам вызовет всё что нужно, и когда нужно.
Паук от страницы может получить данные(Item) или путь(Request) или и то и другое одновременно. Вам нужно возвращать из методов последовательности из Request и/или Item.

def parse(self. response):
    sel = Selector(response)
    # из стартовой страницы выдёргиваем список категорий (носки, трусы, рубашки...)
    for catalog_link in sel.xpath('// . . . . /@href'):
        # указываем что нужно будет запросить страницу по ссылке, 
        # а результат(Response) обработать в методе
        yield Request(url=catalog_link, callback=self.parse_catalog)

def parse_catalog(self, response):
    # ответы сервера будут сыпаться сюда
    sel = Selector(response)
    
    # если сама категория представляет интерес то описываем её
    category = MyCategoryItem()
    category['name'] = sel.xpath( . . .                     # как называется
    category['count'] =  . . .                              # сколько товаров
    . . .
    # и выбрасываем из метода
    yield category
    
    # получаем список ссылок на конкретные рубашки
    for page_link in sel.xpath('//. . . ./@href'):
        # выбрасываем из метода
        yield Response(url=page_link, callback=self.parse_page)

def parse_page(self, response):
     . . .
     item = MyGoodsItem()
     . . .
     yield item

Но проще будет прочитать документацию.

Scrapy: как передать ссылку в функцию, чтобы она ее, в свою очередь, отослала в Selector?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт