@Bjornie
Изучаю Python

Оптимизация настроек скачивания для увеличения скорости получения товаров из Amazon в Scrapy?

Написал первый раз парсер с использованием Scrapy, для анализа цен Амазон. Использую MySQL, работаю через платные прокси, подключил разгадывание каптчи. и др. нужные библиотеки. В целом все работает отлично и сам фреймворк мне очень понравился. Однако остался один момент, который мне не очень ясен, а именно конфигурация следующих параметров:
CONCURRENT_REQUESTS = 16
DOWNLOAD_DELAY = 0.25
COOKIES_ENABLED = False

И отдельно поставлю (отключен): # AUTOTHROTTLE_ENABLED = True
Я уже попробовал различные кол-ва параллельных запросов, как с задержкой, так и без (DOWNLOAD_DELAY = 0). Также отдельно пробовал AUTOTHROTTLE_ENABLED.

Т.к. у меня большое кол-во страниц, мне критична скорость парсинга, но при это "уважительное" отношение к Амазону, чтобы не быть забаненным, в связи с чем хотелось бы узнать у кого уже есть опыт: Какие настройки предпочтительнее выставлять, чтобы не рисковать?
Стоит ли использовать AUTOTHROTTLE_ENABLED (хотя он заметно замедляет работу)?

Добавлю, что каждый новый запрос я делаю через прокси с авто-сменой User-agent, а после разгадывания каптчи сохраняю подключение к тому же прокси.

P.S. Забыл добавить:
можно ли запустить один и тот же спайдер из другой консоли, таким образом создав параллельно другие работающий эксземпляр программы?
  • Вопрос задан
  • 405 просмотров
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
если прокси - как он забанит?

автотроттл без прокси обычно нужен, если стоит целенаправленная защита - он не поможет, а ттак в самый раз
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы