Scrapy — Python

Question

Андрей @xmdy

Scrapy — Python

При парсинге одного сайта на битрикс через некоторое время происходит возврат «400» ошибки от сервера. Кто-нибудь занимался им и может подсказать как более хитро маскироваться под пользователя?
Интервал между запросами поставил в 2 секунды, а результат всегда один и тот же — 200 элементов и 400 ошибка

Вопрос задан более трёх лет назад
4061 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

5 комментариев

Андрей @xmdy Автор вопроса

USER_AGENT просто Yandex
А последние три параметра уменьшил вдвое. Все равно — 282 элемента и падает.

Написано более трёх лет назад
bekbulatov @bekbulatov

282, а не 200? Уже лучше… Просто Yandex не надо, лучше валидный, но дело не в нем.
CONCURRENT_ITEMS — макс число элементов, обрабатываемых в Item Pipeline (мне кажется, этот параметр на параллельные запросы не влияет),
CONCURRENT_REQUESTS_PER_SPIDER — макс число параллельных запросов каждого паука (поставьте 1), CONCURRENT_SPIDERS — макс число пауков (поставьте 1)

Написано более трёх лет назад
Андрей @xmdy Автор вопроса

я округлил тогда на счет двухсот — 281-282 было и есть. Никакой разницы. Сейчас пробую с параметрами 1 и 1 в двух последних, но, думаю, что результат будет или такой же, или будет очень медленно.

Написано более трёх лет назад
Андрей @xmdy Автор вопроса

Итого не помогло. Еще варианты? :)

Написано более трёх лет назад
bekbulatov @bekbulatov

Может это ограничение на сессию? Посмотрите, устанавливаются ли какие-либо куки, может их значения меняются с обходом сайта. Напишите мне сайт и что вы парсите в личку. Даже интересно как-то стало.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 197 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 235 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 155 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 127 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 255 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 263 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 431 просмотр
1

ответ
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2011-02-23 02:16:38

Мне кажется это не от того что сервер палит что вы ходите, можете сделать рэндомный интервал от 2-х до 5-ти секунд чтоб проверить, может быть сервак просто глючит =)

Answer 2 · 2011-02-23 11:17:39

Помимо DOWNLOAD_DELAY и USER_AGENT, что я полагаю вы уже меняли, попробуйте уменьшить эти настройки CONCURRENT_ITEMS, CONCURRENT_REQUESTS_PER_SPIDER, CONCURRENT_SPIDERS.

Answer 3 · 2011-02-23 23:44:48

Может там ограничение стоит не на кол-во запросов в минуту или секунду, а на кол-во запросов в час, например.

Answer 4 · 2011-02-25 01:21:34

Проблема была в том, что битрикс, как всегда, впереди планеты всей — он хранил в куках историю посещений. И когда накапливалось около 200 элементов — отказывался работать как надо. Итог — выключенные куки и несколько часов времени на анализ всей сложившейся проблемы)

Scrapy — Python

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт