С недавнего времени изучаю Python и хочу выполнить первый проект для парсинга данных из закрытой области (по авторизации).
Посмотрел
один урок (гист, но там же есть ссылка на видео на ютубе), по которому все достаточно понятно. Но автор не использует никаких модулей для авторизации, не отправляет заголовки, не использует прокси и т.д., поэтому возникают следующие вопросы:
- Если предстоит спарсить несколько тысяч страниц, какие меры безопасности нужно предпринимать, чтобы не быть забаненым?
- Вероятно. если поставить паузы между запросами можно не попасть в бан? (
и как вообще "разведывается" обстановка, чтобы понять: здесь можно спокойно парсить, а здесь тебе покажут сложную каптчу после первых 3 запросов).
- Стоит ли парсить с десктопа (как делал автор)?
- Какой несложный http-клиент можете порекомендовать?
- Достаточно ли отправить заголовки похожие на те, что отправляет мой же браузер?
Данные для парсинга в целом несложные, названия, города да контакты, никакого JS, пагинация.