Scrapy — Python

При парсинге одного сайта на битрикс через некоторое время происходит возврат «400» ошибки от сервера. Кто-нибудь занимался им и может подсказать как более хитро маскироваться под пользователя?
Интервал между запросами поставил в 2 секунды, а результат всегда один и тот же — 200 элементов и 400 ошибка
  • Вопрос задан
  • 4054 просмотра
Пригласить эксперта
Ответы на вопрос 4
taliban
@taliban
php программист
Мне кажется это не от того что сервер палит что вы ходите, можете сделать рэндомный интервал от 2-х до 5-ти секунд чтоб проверить, может быть сервак просто глючит =)
Ответ написан
@bekbulatov
Помимо DOWNLOAD_DELAY и USER_AGENT, что я полагаю вы уже меняли, попробуйте уменьшить эти настройки CONCURRENT_ITEMS, CONCURRENT_REQUESTS_PER_SPIDER, CONCURRENT_SPIDERS.
Ответ написан
@kmike
Может там ограничение стоит не на кол-во запросов в минуту или секунду, а на кол-во запросов в час, например.
Ответ написан
xmdy
@xmdy Автор вопроса
Проблема была в том, что битрикс, как всегда, впереди планеты всей — он хранил в куках историю посещений. И когда накапливалось около 200 элементов — отказывался работать как надо. Итог — выключенные куки и несколько часов времени на анализ всей сложившейся проблемы)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы