Написал первый раз парсер с использованием Scrapy, для анализа цен Амазон. Использую MySQL, работаю через платные прокси, подключил разгадывание каптчи. и др. нужные библиотеки. В целом все работает отлично и сам фреймворк мне очень понравился. Однако остался один момент, который мне не очень ясен, а именно конфигурация следующих параметров:
CONCURRENT_REQUESTS = 16
DOWNLOAD_DELAY = 0.25
COOKIES_ENABLED = False
И отдельно поставлю (отключен):
# AUTOTHROTTLE_ENABLED = True
Я уже попробовал различные кол-ва параллельных запросов, как с задержкой, так и без (DOWNLOAD_DELAY = 0). Также отдельно пробовал AUTOTHROTTLE_ENABLED.
Т.к. у меня большое кол-во страниц, мне критична скорость парсинга, но при это "уважительное" отношение к Амазону, чтобы не быть забаненным, в связи с чем хотелось бы узнать у кого уже есть опыт: Какие настройки предпочтительнее выставлять, чтобы не рисковать?
Стоит ли использовать AUTOTHROTTLE_ENABLED (хотя он заметно замедляет работу)?
Добавлю, что каждый новый запрос я делаю через прокси с авто-сменой User-agent, а после разгадывания каптчи сохраняю подключение к тому же прокси.
P.S. Забыл добавить: можно ли запустить один и тот же спайдер из другой консоли, таким образом создав параллельно другие работающий эксземпляр программы?