Почему Scrapy не сохраняет данные?

Question

tispoint @tispoint

Scrapy

Почему Scrapy не сохраняет данные?

Добрый день.
Запускаю скрипт. Видно, что он проходит все нужные страницы и не ходит туда, куда не нужно - вроде бы все хорошо, но вывод в CSV не производится - длина файла 0. В чем может быть засада?

# -*- coding: utf-8 -*-
from scrapy.spiders import Rule, CrawlSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.linkextractors import LinkExtractor

from intelxeon.items import IntelxeonItem

from scrapy import Selector

class IntelXeon_Spider(CrawlSpider):  #

    name = 'intelxeon_spider'

    allowed_domains = ['ark.intel.com']
    start_urls = ['http://ark.intel.com/products/family/78581',
	'http://ark.intel.com/products/family/78585',
	]



    rules = [
            Rule
                 (
                 LinkExtractor(deny=('/content/',
                                      )),
                 follow = False,
                 ),


            Rule
                 (
                  LinkExtractor(allow=('/producr/',
                                       )),
                  callback = 'parse_page',
                  follow = True,
                ),

             ]


    def parse_page(self, response):

        hxs = Selector(response)
        item = IntelxeonItem()
        try:
            item['url'] =  response.request.url
            item['title'] =  hxs.xpath('//h1/text()').extract()


        except:
            item['url'] =  response.request.url

        return item

запускаю scrapy crawl intelxeon_spider -o xeon.csv -t csv
а в ответ тишина :-)

Вопрос задан более трёх лет назад
382 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Можно ли скрапить телеграмм?
- 1 подписчик
- более года назад
- 377 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как найти источник данных этого сайта?
- 1 подписчик
- более года назад
- 265 просмотров
1

ответ
HTML

+2 ещё

Простой
Как вытянуть значение из парсера на c#?
- 1 подписчик
- более года назад
- 168 просмотров
1

ответ
Scrapy

Средний
Как сделать так чтобы в scrapy, парсились дубликаты ссылок? То есть так чтобы каждая спаршенная ссылка, должна создать уникальный файл. Как?
- 1 подписчик
- более двух лет назад
- 123 просмотра
1

ответ
Python

+1 ещё

Простой
Как в Scrapy сохранить результат в JSON при запуске из скрипта?
- 1 подписчик
- более двух лет назад
- 152 просмотра
1

ответ
Scrapy

Простой
Как обратиться к элементу sitemap.xml через Scrapy?
- 1 подписчик
- более двух лет назад
- 42 просмотра
0

ответов
Scrapy

Простой
Почему Scrapy не сохраняет результат?
- 1 подписчик
- более двух лет назад
- 57 просмотров
0

ответов
Scrapy

Простой
Как использовать несколько методов в scrapy?
- 1 подписчик
- более двух лет назад
- 94 просмотра
0

ответов
Scrapy

Простой
Почему при парсинге Озона выдает только первые 4 значения?
- 1 подписчик
- более трёх лет назад
- 298 просмотров
0

ответов
WordPress

+2 ещё

Простой
Не загружается файл импорта WooCommerce?
- 1 подписчик
- более трёх лет назад
- 82 просмотра
0

ответов
Показать ещё Загружается…

Fullstack разработчик (TypeScript+React). Свободный график. Фулл тайм.

Круглый Квадрат

от 300 000 до 450 000 ₽

Ведущий разработчик, С++

U-System • Москва

от 220 000 ₽

Системный аналитик

Data World • Москва

от 180 000 до 210 000 ₽

Answer 1 · 2016-04-19 15:56:21

1) проверьте, что все требуемое парсится/находится => см. лог
2) проверьте права на файл, укажите путь к файлу прямо ( с именем диска, все директории должны существовать)

еще в H1 там символы копирайта, могут быть непонятки с кодировкой - проверьте вначале находимость на каком-нибудб мета-теге, например

Answer 2 · 2016-04-19 16:35:46

В логе, нам мой взгляд, все нормально:

2016-04-19 17:12:36 [scrapy] INFO: Scrapy 1.0.1 started (bot: intelxeon)
2016-04-19 17:12:36 [scrapy] INFO: Optional features available: ssl, http11
2016-04-19 17:12:36 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'intelxeon.spiders', 'FEED_URI': 'xeon.csv', 'SPIDER_MODULES': ['intelxeon.spiders'], 'BOT_NAME': 'intelxeon', 'LOG_STDOUT': True, 'FEED_FORMAT': 'csv', 'LOG_FILE': 'C:/log.txt'}
2016-04-19 17:12:36 [scrapy] INFO: Enabled extensions: CloseSpider, FeedExporter, TelnetConsole, LogStats, CoreStats, SpiderState
2016-04-19 17:12:37 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2016-04-19 17:12:37 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2016-04-19 17:12:37 [scrapy] INFO: Enabled item pipelines: 
2016-04-19 17:12:37 [scrapy] INFO: Spider opened
2016-04-19 17:12:37 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-04-19 17:12:37 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-04-19 17:12:38 [scrapy] DEBUG: Crawled (200) <GET http://ark.intel.com/products/family/78581> (referer: None)
2016-04-19 17:12:39 [scrapy] DEBUG: Crawled (200) <GET http://ark.intel.com/products/family/78581> (referer: http://ark.intel.com/products/family/78581)
...
2016-04-19 17:12:40 [scrapy] INFO: Closing spider (finished)
2016-04-19 17:12:40 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 16136,
 'downloader/request_count': 51,
 'downloader/request_method_count/GET': 51,
 'downloader/response_bytes': 697437,
 'downloader/response_count': 51,
 'downloader/response_status_count/200': 51,
 'dupefilter/filtered': 8,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2016, 4, 19, 13, 12, 40, 99000),
 'log_count/DEBUG': 53,
 'log_count/INFO': 7,
 'request_depth_max': 1,
 'response_received_count': 51,
 'scheduler/dequeued': 51,
 'scheduler/dequeued/memory': 51,
 'scheduler/enqueued': 51,
 'scheduler/enqueued/memory': 51,

Если в командной строке указать для вывода -o c:\xeon.csv , то появляется ошибка такого плана:
2016-04-19 17:14:33 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'intelxeon.spiders', 'FEED_URI': 'c:\xeon.csv', 'SPIDER_MODULES': ['intelxeon.spiders'], 'BOT_NAME': 'intelxeon', 'LOG_STDOUT': True, 'FEED_FORMAT': 'csv', 'LOG_FILE': 'C:/log.txt'}
2016-04-19 17:14:33 [scrapy] ERROR: Unknown feed storage scheme: c

Насчет полей - я все убрал для чистоты эксперимента, оставил только
item['url'] = response.request.url
это ведь по-любому должно выводиться?

Почему Scrapy не сохраняет данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт