@tispoint

Почему Scrapy оставляет некоторые ссылки необработанными?

Добрый день.
Был уверен, что правило
rules = (Rule(LinkExtractor(allow=('/bedroom-melissa/')), callback='parse_item', follow=True),
    )

вызывает функцию на каждой обнаруженной странице.
В файле результатов вижу, что реально разобрано процентов 20-30 от ожидаемого количества строк, а в 70-80 процентах случаев в файл результата записана только посещенная ссылка. Вот так, приблизительно:
http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-803/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-846/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-843/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/closet-hq-840-melissa-oak-sonoma/		
Шкаф ШК-845 Мелисса	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-845/	12 935 руб.	МДФ, Зеркало
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/cabinet-shk-826-melissa-oak-sonoma/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-802/
  • Вопрос задан
  • 170 просмотров
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
э... какой файл результата? вы не в NoSQL вставляете?

всегда дергайте текущий URL в items, так будете знать, обрабатывал он страницы или нет
item['url'] = response.request.url
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы