Задать вопрос

Bjornie @Bjornie

Изучаю Python

python

Оптимизация настроек скачивания для увеличения скорости получения товаров из Amazon в Scrapy?

Написал первый раз парсер с использованием Scrapy, для анализа цен Амазон. Использую MySQL, работаю через платные прокси, подключил разгадывание каптчи. и др. нужные библиотеки. В целом все работает отлично и сам фреймворк мне очень понравился. Однако остался один момент, который мне не очень ясен, а именно конфигурация следующих параметров:

CONCURRENT_REQUESTS = 16
DOWNLOAD_DELAY = 0.25
COOKIES_ENABLED = False

И отдельно поставлю (отключен): # AUTOTHROTTLE_ENABLED = True
Я уже попробовал различные кол-ва параллельных запросов, как с задержкой, так и без (DOWNLOAD_DELAY = 0). Также отдельно пробовал AUTOTHROTTLE_ENABLED.

Т.к. у меня большое кол-во страниц, мне критична скорость парсинга, но при это "уважительное" отношение к Амазону, чтобы не быть забаненным, в связи с чем хотелось бы узнать у кого уже есть опыт: Какие настройки предпочтительнее выставлять, чтобы не рисковать?
Стоит ли использовать AUTOTHROTTLE_ENABLED (хотя он заметно замедляет работу)?

Добавлю, что каждый новый запрос я делаю через прокси с авто-сменой User-agent, а после разгадывания каптчи сохраняю подключение к тому же прокси.

P.S. Забыл добавить: можно ли запустить один и тот же спайдер из другой консоли, таким образом создав параллельно другие работающий эксземпляр программы?

Вопрос задан более трёх лет назад
411 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

dimonchik2013

Dimonchik @dimonchik2013

non progredi est regredi

если прокси - как он забанит?

автотроттл без прокси обычно нужен, если стоит целенаправленная защита - он не поможет, а ттак в самый раз

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 75 просмотров
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 117 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 187 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 218 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 75 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 198 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 228 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 247 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 400 просмотров
2

ответа
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽