Добрый день! Я решаю следующую задачу: имеется архив новостей, например,
www.fontanka.ru/fontanka/arc/news.html. Надо извлечь все статьи за все время и записать в базу данных. С помощью scrapy shell данную задачу мне удалось решить, но написать spider мне не получилось.
Когда я работаю в shell, часть программы выглядит следующим образом:
n = 0 #количество статей
data = "/2013/02/13"
while(n <= 10000):
fetch(site + data + "/news.html")
list_site = sel.xpath('//a[contains(@class, pattern)]/@href')
for i in list_site:
#извлекаем содержимое i
#записываем в базу данных
n = n + 1
data = #выбираем следующую дату
Как такую структуру организовать не используя shell? Была попытка использовать Request, но такой вложенности создать не удалось.
Заранее спасибо!