@tispoint

Как сделать, чтобы Scrapy не посещал страницы с дополнительными параметрами в URL?

Парсинг сайта. Донор - магазин товаров с развитой системой фильтрации.
Scrapy уходит в дебри ссылок вроде
2016-03-12 11:48:08 [scrapy] DEBUG: Crawled (200) (referer: site.ru/catalog/serv
er/?brand=123&filter=4187%2C12103%2C12099%2C12141%2C12109%2C12115%2C12150%2C1207
3%2C12128&onpage=48)
и там погибает в бесконечности.
Как запретить обход ссылок вроде &filter=
  • Вопрос задан
  • 256 просмотров
Решения вопроса 1
dimonchik2013
@dimonchik2013
non progredi est regredi
Rule
                 (
                  LinkExtractor(deny=('&filter=',
                                      )),
                  follow = False,
                ),
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы