Меры предосторожности при парсинге на Python?

Question

Bjornie @Bjornie

Изучаю Python

Меры предосторожности при парсинге на Python?

С недавнего времени изучаю Python и хочу выполнить первый проект для парсинга данных из закрытой области (по авторизации).

Посмотрел один урок (гист, но там же есть ссылка на видео на ютубе), по которому все достаточно понятно. Но автор не использует никаких модулей для авторизации, не отправляет заголовки, не использует прокси и т.д., поэтому возникают следующие вопросы:
- Если предстоит спарсить несколько тысяч страниц, какие меры безопасности нужно предпринимать, чтобы не быть забаненым?
- Вероятно. если поставить паузы между запросами можно не попасть в бан? (и как вообще "разведывается" обстановка, чтобы понять: здесь можно спокойно парсить, а здесь тебе покажут сложную каптчу после первых 3 запросов).
- Стоит ли парсить с десктопа (как делал автор)?
- Какой несложный http-клиент можете порекомендовать?
- Достаточно ли отправить заголовки похожие на те, что отправляет мой же браузер?

Данные для парсинга в целом несложные, названия, города да контакты, никакого JS, пагинация.

Вопрос задан более трёх лет назад
4751 просмотр

Комментировать

Подписаться 26 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 4

Комментировать

7 комментариев

Владислав @DeadTime

Насчет прикинуться гугл ботом можно поподробнее?

Написано более трёх лет назад
Dimonchik @dimonchik2013

https://support.google.com/webmasters/answer/10619...

Написано более трёх лет назад
АртемЪ @Jump

Ну я бы не сказал что wget хороший способ - он вообще как то для парсинга мало применим.
Им разве что домашнюю страницу какого нибудь школьника выкачать - он же тупо по существующим ссылкам ходит.
Большинство сайтов которые нужно парсить как минимум интерактивные - отправляешь запрос - разбираешь ответ - и на основе разбора ответа формируешь новый запрос.
А сейчас еще и JS повально - не выполнил скрипт, не увидел ссылки, дальше первой страницы никуда не попадешь.

Написано более трёх лет назад
Bjornie @Bjornie Автор вопроса

АртемЪ: нашел пару попапов, которые подгружают несколько строк через AJAX (этих данных нет в коде). Какую библиотеку можете посоветовать для парсера на питоне?

Написано более трёх лет назад
АртемЪ @Jump

Bjornie: Если искомые данные можно подгрузить без исполнения скриптов то grab.
Иначе - только управлять браузером, например через selenium. Но это долго и ресурсоемко.

Написано более трёх лет назад
Владислав @DeadTime

АртемЪ: да не так уж и долго

Написано более трёх лет назад
qlkvg @qlkvg

А если не нужны картинки, то и не сильно ресурсоемко)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 2 часа назад
- 43 просмотра
1

ответ
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 3 часа назад
- 111 просмотров
1

ответ
Python

+1 ещё

Средний
Насколько надёжен шифр от ИИ?
- 1 подписчик
- 10 часов назад
- 189 просмотров
3

ответа
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 137 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 219 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 143 просмотра
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 558 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 120 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 146 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 546 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2016-11-17 14:16:43

Если парсить всерьез, то я рекомендую обратить внимание на scrapy - шикарный фреймворк на питоне для парсинга сайтов.
Задачу в заголовке можно будет решить без говнокода.
Итого: 1 страница красивого кода, за 57 секунд в 16 потоков загружает 345 страниц с веблансера и выдает 3420 проектов.

Answer 2 · 2016-11-14 09:59:20

Иногда проще наоборот настроить парсер в 10 потоков и спарсить всё за 30 минут пока админы не опомнились чем растягивать это хз на сколько ))

Answer 3 · 2016-11-14 10:38:46

хороший способ - запустить wget, если он выкачает весь сайт - он однопоточный, то защита там неособо
еще фишка - прикинуться Гуглботом, поверьте на слово - оочень немногие проверяют бота, особенно если с ВПС в США парсить
для ВК и прочих, где царствую спамеры - защита будет всегда, границы - ищите
заголовки - см https://pypi.python.org/pypi/fake-useragent/0.1.2

Answer 4 · 2016-11-14 08:33:58

1) Бдить временные интервалы, использовать разные IP и учетные записи (если возможно).
2) Вероятно да. Однако никто Вам тут не ответит, все очень индивидуально. Разведка всегда проводится методом проб и ошибок.
3) Да пожалуйста. За парсинг у нас не сажают. В худшем случае забанят. Решать Вам.
4) В смысле?
5) Откуда ж нам знать-то?

Answer 5 · 2016-11-17 10:30:28

Для теста данные библиотеки подходят, но если действительно хотите парсить большие сайты, то надо использовать scrapy.

- Если предстоит спарсить несколько тысяч страниц, какие меры безопасности нужно предпринимать, чтобы не быть забаненым?

Если нет авторизации, то можно использовать: user-agent rotation, proxy rotation, random delay.

- Вероятно. если поставить паузы между запросами можно не попасть в бан? (и как вообще "разведывается" обстановка, чтобы понять: здесь можно спокойно парсить, а здесь тебе покажут сложную каптчу после первых 3 запросов).

Просто пишешь парсер без пауз, если все парсится, то защиты нет. По моему опыту могу сказать, что очень мало сайтов имеют защиту от множества запросов, в основном крупные проекты.

- Стоит ли парсить с десктопа (как делал автор)?

Конечно.

- Достаточно ли отправить заголовки похожие на те, что отправляет мой же браузер?

Тут надо смотреть на защиту, в основном хватает user-agent'а.

Меры предосторожности при парсинге на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт