Как правильно парсить сайты, чтобы не словить капчу?

Question

Алексей Владыкин @AlexVladika

программист-любитель

Парсинг

Как правильно парсить сайты, чтобы не словить капчу?

Как правильно парсить сайты, чтобы не словить капчу?
Я понимаю, что для "правильного парсинга" нужно чтобы бот имел схожее поведение с человеком. Это можно сделать при помощи добавления в код headers, proxy.
Есть ли еще способы снизить риск появления капчи или других блокирующих систем?

Вопрос задан более трёх лет назад
596 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Stepik

FullStack Developer and Data Scientist (Python+JS+Data+CookBook)

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 5

Комментировать

6 комментариев

АртемЪ @Jump

При чем тут мелочь тырить?
Парсинг нормальное занятие.
А доступ по API дают крайне редко, потому что владельцы контента как правило не выгодно его отдавать.

Написано более трёх лет назад
FanatPHP @FanatPHP

ну офигеть
то есть если мне невыгодно отдавать встречному бомжу деньги, то когда он шарит у меня по карманам, это ай-яй-яй
а если невыгодно отдавать всякому попрошайке информацию, которую я собирал, то шарить у меня по карманам - это "нормальное занятие"

"нормальное" оно только у нищих моральных уродов, которые сами ничего сделать не могут, а только наживаться на чужом. Но даже и это сами не могут, а бегут в инернет, чтобы им готовый код написали.

Написано более трёх лет назад
Дмитрий Свиридов @dimuska139

FanatPHP, так предъявите это гуглу и яндексу, потому эти "бомжи" шарят у вас по карманам постоянно, индексируя ваш сайт.

Написано более трёх лет назад
FanatPHP @FanatPHP

мда, кто бы сомневался
читать оно тоже не умеет

Написано более трёх лет назад
АртемЪ @Jump

FanatPHP, При чем тут шарить по карманам? Какие-то странные у вас аналогии.
Вы всех пользователй сайта бомжами считаете?

Человек выложил информацию в публичный доступ. Она раскидана по сотням страниц его сайта.
Другой человек захотел собрать эту информацию в удобном для него виде - что в этом плохого?

У меня например стоит парсинг авито и еще нескольких ресурсов, отслеживаю появление объявлений с нужными ключевыми словами.

Написано более трёх лет назад
FanatPHP @FanatPHP

Вот же жульё, вертится как червяк на сковородке.
Нет чтобы честно сказать - да, я беру что мне никто не предлагал. Но он ещё теории выдумывает в свое оправдание.

Это никакой не "публичный" доступ. Все регулируется.
Если человек поставил скамейку во дворе "в публичный доступ" за свои деньги, это не значит что такие как вы, любители дармовщинки, можете эту скамейку утащить к себе домой или поджечь там.
Все эти теории не отличаются от того, как себя оправдывают спамеры, "а на емейл адресе нигде не написано., что рекламу слать нельзя!"

Только про скамейку-то все уже более-менее выучили, ну кроме совсем тупой деревенщины, а про чужую информацию теории изобретаем, "раз поставили - значит все наше, что хотим то и воротим!".

Я согласен с тем, что парсинг иногда - необходимое зло.
Но человек, который этим занимается, должен знать свое место, а не биять себя пяткой в грудь, рассказывая всем что "лес общий и поэтому его кто угодно может засирать".
Но если уж ставят капчу, то заниматься обходом - это сосем западло.
Поскольку здесь ты уже гадишь не одному только автору сайта, а всем посетителям.

Написано более трёх лет назад

Комментировать

4 комментария

FanatPHP @FanatPHP

а потом сайт еще больше закручивает гайки, усложняет капчу, и в итоге уже нормальные люди не могут на него зайти

в мире вроде люди уже поняли что срать под себя и загаживать природу вокруг не стоит.
а макаки в интернете готовы все вокруг обосрать, и у них это "нормальная практика!"

Написано более трёх лет назад
Дмитрий Свиридов @dimuska139

FanatPHP, не очень понял, кому вы адресовали этот поток создания. Если сайт, который парсишь, регулярно выплёвывает каптчи, то совершенно нормально для их разгадывания использовать платные сервисы и не мучиться, ибо стоит это дёшево.

Если речь о моральных принципах парсинга как такового, то это весьма холиварная тема, обсуждать которую мне не интересно. Скажу так: парсинг - это не всегда воровство. Поисковые системы выполняют это действие постоянно, и никто их не обвиняет в воровстве, вроде как. А ведь они не просто "воруют" информацию с вашего сайта, но и размещают её у себя на сайте - в поисковой выдаче.

Написано более трёх лет назад
FanatPHP @FanatPHP

Дмитрий Свиридов, сложно ожидать от бомжа логики в рассуждениях или банального знакомства с темой, но как раз поисковики никогда не занимаются "разгадыванием капчи" и не лезут парсить то, что закрыто от индексирования.

Написано более трёх лет назад
Дмитрий Свиридов @dimuska139

FanatPHP, начнём с того, что я нигде не писал, что занимаюсь парсингом. Но, тем не менее, вы разбрасываетесь оскорблениями - это странно. Поисковики не занимаются "разгадыванием каптчи", безусловно, но любой сайт, размещённый в интернете, они полезут индексировать, если вы явно им не укажете, что оно "закрыто" в robots.txt или ещё как-то. А если вы не знаете об этом, допустим, то поисковики смело вас "обворуют". Это точно такой же парсинг сайтов (по-вашему - воровство), и не важно, разгадывают они каптчи или нет.

P.s. хотя любопытно наблюдать, как некто, укравший фотографию Эль Риситаса из фрагмента телепередачи (очевидно, не имея разрешения на её использование), рассказывает про то, как же плохо парсить сайты.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 640 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 397 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1104 просмотра
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 426 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 516 просмотров
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 549 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 1230 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 875 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 505 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт. 2025
- 367 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2021-08-10 02:57:58

Я понимаю, что для "правильного парсинга" нужно чтобы бот имел схожее поведение с человеком.

Правильно понимаете.

Это можно сделать при помощи добавления в код headers, proxy.

Чего? Это что вообще такое?
Чтобы поведение было похоже на человека, бот должен действовать как человек, а не добавлять в код какую-то непонятную фигню.

Answer 2 · 2021-08-10 08:24:04

Надо обратиться к владельцам сайта за нормальным доступом к данным, через API.
Если такой доступ не дают, то не пытаться мелочь по карманам тырить, а найти себе более достойное занятие.

Answer 3 · 2021-08-10 12:43:28

Появление капчи в общем случае никак нельзя предотвратить. Надо понимать, что капчу показывают не только ботам. Капчу показывают просто любым посетителям сайта при наступлении каких-то условий. Просто человеку сложнее добиться этих условий в обычном сценарии использования сайта, но даже если она возникнет, то её очень легко разгадать, а вот для бота это затруднение.

Например, я парсил один сайт, а он ровно после 500 страниц показал капчу. Весьма вероятно, что если бы я сидел и кликал по сайту в браузере и накликал за полчаса 500 страниц, то тоже бы увидел капчу.

Answer 4 · 2021-08-10 10:00:04

В любом случае каптча периодически, скорее всего, будет появляться. Но это не беда, ведь есть кучи сервисов, которые за копейки их разгадывают. Например, вот. Обычно именно так и делают.

Answer 5 · 2021-08-10 10:57:03

Я рассуждаю так:
1. Если сайт изначально создан и предполагает API (или иную систему для получения его содержимого), платный\бесплатный, для пользователей, пользуйтесь!
2. Если сайт не предполагает вышеописанного, более того, пытается защитить свой контент, то че ты туда лезешь вообще? Халявщико на чужом горбу в рай уехать, хоть пруд пруди.

Как правильно парсить сайты, чтобы не словить капчу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт