Почему Scrapy оставляет некоторые ссылки необработанными?

Question

tispoint @tispoint

Scrapy

Почему Scrapy оставляет некоторые ссылки необработанными?

Добрый день.
Был уверен, что правило

rules = (Rule(LinkExtractor(allow=('/bedroom-melissa/')), callback='parse_item', follow=True),
    )

вызывает функцию на каждой обнаруженной странице.
В файле результатов вижу, что реально разобрано процентов 20-30 от ожидаемого количества строк, а в 70-80 процентах случаев в файл результата записана только посещенная ссылка. Вот так, приблизительно:

http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-803/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-846/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-843/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/closet-hq-840-melissa-oak-sonoma/		
Шкаф ШК-845 Мелисса	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-845/	12 935 руб.	МДФ, Зеркало
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/cabinet-shk-826-melissa-oak-sonoma/		
	http://pastelmebel.ru/shop/bedroom-furniture/bedroom-melissa/shk-802/

Вопрос задан более трёх лет назад
173 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

tispoint @tispoint Автор вопроса

файл результатов - это csv. Увы, знания у меня слабые. Мне проще по примерам разбираться.
А не сможете ли помочь с написанием конкретно данного парсера? Естественно, на возмездной основе.

Написано более трёх лет назад
Dimonchik @dimonchik2013

напишите в мыл

Написано более трёх лет назад
Dimonchik @dimonchik2013

по результатам - нужно парсить только в NoSQL, причина - меняющийся / неполный шаблон на странице, что в итоге приводит к ошибке/пустым полям, в NoSQL вы увидите что поля пустые + сможете иногда разглядеть закономерность, а парсинг сразу в что-то струкрутрированное может привести к неполным данным и отсутсствию понимания, как это исправить

из NoSQL, ессно, потом вытягивается в структуру какую нужно

Написано более трёх лет назад
tispoint @tispoint Автор вопроса

я написал в почту. Буду признателен за помощь.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Можно ли скрапить телеграмм?
- 1 подписчик
- более года назад
- 379 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как найти источник данных этого сайта?
- 1 подписчик
- более года назад
- 265 просмотров
1

ответ
HTML

+2 ещё

Простой
Как вытянуть значение из парсера на c#?
- 1 подписчик
- более года назад
- 168 просмотров
1

ответ
Scrapy

Средний
Как сделать так чтобы в scrapy, парсились дубликаты ссылок? То есть так чтобы каждая спаршенная ссылка, должна создать уникальный файл. Как?
- 1 подписчик
- более двух лет назад
- 123 просмотра
1

ответ
Python

+1 ещё

Простой
Как в Scrapy сохранить результат в JSON при запуске из скрипта?
- 1 подписчик
- более двух лет назад
- 152 просмотра
1

ответ
Scrapy

Простой
Как обратиться к элементу sitemap.xml через Scrapy?
- 1 подписчик
- более двух лет назад
- 42 просмотра
0

ответов
Scrapy

Простой
Почему Scrapy не сохраняет результат?
- 1 подписчик
- более двух лет назад
- 57 просмотров
0

ответов
Scrapy

Простой
Как использовать несколько методов в scrapy?
- 1 подписчик
- более трёх лет назад
- 94 просмотра
0

ответов
Scrapy

Простой
Почему при парсинге Озона выдает только первые 4 значения?
- 1 подписчик
- более трёх лет назад
- 298 просмотров
0

ответов
WordPress

+2 ещё

Простой
Не загружается файл импорта WooCommerce?
- 1 подписчик
- более трёх лет назад
- 82 просмотра
0

ответов
Показать ещё Загружается…

Product manager

Synapse AI • Москва

от 150 000 ₽

Database Administrator / DBA

Playerok

от 200 000 ₽

Senior Backend Developer

Playerok

от 400 000 ₽

Answer 1 · 2016-03-17 12:32:38

э... какой файл результата? вы не в NoSQL вставляете?

всегда дергайте текущий URL в items, так будете знать, обрабатывал он страницы или нет
item['url'] = response.request.url

Почему Scrapy оставляет некоторые ссылки необработанными?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт