ks_ks
@ks_ks

Scrapy — я сдаюсь!

dumpz.org/160218/ и paste.in.ua/3882/ — результаты моего корпения над scrapy.

Есть три вопроса на эту тему:

как отослать этот запрос
opener = urllib2.build_opener()
opener.addheaders = [('cookie', cookie)]
opener.open('http://wordstat.yandex.ru/?cmd=words&page=1&text=&geo=&text_geo=&captcha_id=%s&captcha_val=', key)

— Яндексу… где key — известная нам штука, а cookie — неизвестная?

Как сделать дальнейшие путешествия нашего паука под этими же куками?

И третий — как его маленько замедлить?
А-то он сильно быстро бегает и долбит и без того замучанный Яндекс. :)
  • Вопрос задан
  • 6130 просмотров
Пригласить эксперта
Ответы на вопрос 3
@bekbulatov
Замедлить можно этими настройками

CONCURRENT_REQUESTS — макс число одновременных запросов
CONCURRENT_REQUESTS_PER_DOMAIN — макс число одновременных запросов на домен
DOWNLOAD_DELAY — задержка между запросами
Раньше тут еще был CONCURRENT_SPIDERS — макс число пауков. Видимо, убрали.

По умолчанию scrapy склеивает куки, о чем говорит параметр dont_merge_cookies

Единственное условие — надо использовать встроенный Request
Ответ написан
demark
@demark
Немного оффтоп, но какие у вас объёмы запросов на вордстат? может имеет смысл воспользоваться api яндекс.директа — CreateNewWordstatReport? (на 1 акк — 1000 запросов/сутки)
Ответ написан
@lorien
> И третий — как его маленько замедлить?

Мало работал со скрапи, но я думаю, банально можно sleep вызывать внутри функции-обработчитка.

Юзайте grab :)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы