Как решить проблему при парсинге сайтов с помощью фреймворка Scrapy?

Question

Alica @Alica

Scrapy

Как решить проблему при парсинге сайтов с помощью фреймворка Scrapy?

Добрый день! Я решаю следующую задачу: имеется архив новостей, например, www.fontanka.ru/fontanka/arc/news.html. Надо извлечь все статьи за все время и записать в базу данных. С помощью scrapy shell данную задачу мне удалось решить, но написать spider мне не получилось.
Когда я работаю в shell, часть программы выглядит следующим образом:

n = 0 #количество статей 
data = "/2013/02/13"
while(n <= 10000):
       fetch(site + data + "/news.html")
       list_site = sel.xpath('//a[contains(@class, pattern)]/@href')
       for i in list_site:
            #извлекаем содержимое i
            #записываем в базу данных
            n = n + 1
       data = #выбираем следующую дату

Как такую структуру организовать не используя shell? Была попытка использовать Request, но такой вложенности создать не удалось.
Заранее спасибо!

Вопрос задан более трёх лет назад
2940 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+1 ещё

Простой
Можно ли скрапить телеграмм?
- 1 подписчик
- более года назад
- 376 просмотров
1

ответ
Парсинг

+1 ещё

Простой
Как найти источник данных этого сайта?
- 1 подписчик
- более года назад
- 263 просмотра
1

ответ
HTML

+2 ещё

Простой
Как вытянуть значение из парсера на c#?
- 1 подписчик
- более года назад
- 168 просмотров
1

ответ
Scrapy

Средний
Как сделать так чтобы в scrapy, парсились дубликаты ссылок? То есть так чтобы каждая спаршенная ссылка, должна создать уникальный файл. Как?
- 1 подписчик
- более двух лет назад
- 123 просмотра
1

ответ
Python

+1 ещё

Простой
Как в Scrapy сохранить результат в JSON при запуске из скрипта?
- 1 подписчик
- более двух лет назад
- 152 просмотра
1

ответ
Scrapy

Простой
Как обратиться к элементу sitemap.xml через Scrapy?
- 1 подписчик
- более двух лет назад
- 41 просмотр
0

ответов
Scrapy

Простой
Почему Scrapy не сохраняет результат?
- 1 подписчик
- более двух лет назад
- 57 просмотров
0

ответов
Scrapy

Простой
Как использовать несколько методов в scrapy?
- 1 подписчик
- более двух лет назад
- 94 просмотра
0

ответов
Scrapy

Простой
Почему при парсинге Озона выдает только первые 4 значения?
- 1 подписчик
- более трёх лет назад
- 298 просмотров
0

ответов
WordPress

+2 ещё

Простой
Не загружается файл импорта WooCommerce?
- 1 подписчик
- более трёх лет назад
- 82 просмотра
0

ответов
Показать ещё Загружается…

Системный аналитик

Bitbanker.ru

от 240 000 ₽

DevOps инженер

Data World • Москва

До 200 000 ₽

Mobile-Backend QA Engineer (Automation)

SMALL

от 150 000 до 200 000 ₽

Answer 1 · 2014-01-16 14:16:09

Alica @Alica Автор вопроса

Проблему удалось решить с помощью python-библиотеки grab.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-01-26 21:16:09

Я бы сделал это примерно так:

class my_spider(CrawlSpider):
    name = "fontanka"
    allowed_domains = ["fontanka.ru"]
    start_urls = ["http://www.fontanka.ru/fontanka/arc/news.html"]
    base_address = "http://www.fontanka.ru/"

    def parse(self, response):
        """
        Парсим стартовую страничку, 
        находим ссылки на другие странички        
        """
        for date in (date1, ....):
            # выбираем следующую дату
            site = self.base_address
            url = "%(site)s/%(date)s/news.html" % {
                "site": site,
                "date": date,
            }        
            request = Request(url, callback = self.parse_page)
            yield request

    def parse_page(self, response):
        """
        Парсим каждую загруженную страничку.
        """
        list_site = sel.xpath('//a[contains(@class, pattern)]/@href')
        for i in list_site:
            #извлекаем содержимое i
            #записываем в базу данных тут или в pipelines
            # http://doc.scrapy.org/en/latest/topics/item-pipeline.html

P.S. Рассмотрите вариант записи в БД через item pipeline

Как решить проблему при парсинге сайтов с помощью фреймворка Scrapy?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт