Как в scrapy осуществить переход на след страницу?

Question

naruto_hokagi @naruto_hokagi

Как в scrapy осуществить переход на след страницу?

Здравствуйте пишу парсер новостей на scrapy, мне нужно что бы он начинал парсить со стартового url открывал каждую новость извлекал данные, дальше переходил на след страницу и проделывал всетоже самое. У меня парсит только первую, а дальше идти не хочет

class GuardianSpider(CrawlSpider):
	name = 'guardian'
	allowed_domains = ['theguardian.com']
	start_urls = ['https://www.theguardian.com/world/europe-news']

	rules = (
		Rule(LinkExtractor(restrict_xpaths=("//div[@class='u-cf index-page']",),
							allow=('https://www.theguardian.com/\w+/\d+/\w+/\d+/\w+',)),
		callback = 'parser_items'),
		Rule(LinkExtractor(restrict_xpaths=("//div[@class='u-cf index-page']",),
							allow=('https://www.theguardian.com/\w+/\w+?page=\d+',)),
		follow = True),
		)

Вопрос задан более трёх лет назад
943 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- час назад
- 41 просмотр
0

ответов
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 4 часа назад
- 55 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- вчера
- 72 просмотра
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- вчера
- 155 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 89 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 384 просмотра
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 226 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 359 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 266 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 169 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2018-04-27 09:59:14

Вообще, я бы использовал `BaseSpider` а не `CrawlSpider` и вручную прописал бы xpaths для next_page и news.
Что-то типа такого:

def parse(self, response):
    news_css = 'div.fc-item__container > a::attr(href)'
    for news_link in response.css(news_css).extract():
        req = scrapy.Request(response.follow(url=news_link, callback=self.parser_items)
        yield req

    next_page_css = 'div.pagination__list > a::attr(href)'
    for nextpage_link in response.css(news_css).extract():
        req = scrapy.Request(response.follow(url=nextpage_link, callback=self.parse)
        yield req

P.S. Код не тестировал, но я думаю, смысл понятен. Обычно, с такими пауками проще работать чем с BroadCrawl

Как в scrapy осуществить переход на след страницу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт