AlexVladika
@AlexVladika
программист-любитель

Как правильно парсить сайты, чтобы не словить капчу?

Как правильно парсить сайты, чтобы не словить капчу?
Я понимаю, что для "правильного парсинга" нужно чтобы бот имел схожее поведение с человеком. Это можно сделать при помощи добавления в код headers, proxy.
Есть ли еще способы снизить риск появления капчи или других блокирующих систем?
  • Вопрос задан
  • 365 просмотров
Пригласить эксперта
Ответы на вопрос 5
Jump
@Jump
Системный администратор со стажем.
Я понимаю, что для "правильного парсинга" нужно чтобы бот имел схожее поведение с человеком.
Правильно понимаете.

Это можно сделать при помощи добавления в код headers, proxy.
Чего? Это что вообще такое?
Чтобы поведение было похоже на человека, бот должен действовать как человек, а не добавлять в код какую-то непонятную фигню.
Ответ написан
Комментировать
FanatPHP
@FanatPHP
Чебуратор тега РНР
Надо обратиться к владельцам сайта за нормальным доступом к данным, через API.
Если такой доступ не дают, то не пытаться мелочь по карманам тырить, а найти себе более достойное занятие.
Ответ написан
shurshur
@shurshur
Сисадмин, просто сисадмин...
Появление капчи в общем случае никак нельзя предотвратить. Надо понимать, что капчу показывают не только ботам. Капчу показывают просто любым посетителям сайта при наступлении каких-то условий. Просто человеку сложнее добиться этих условий в обычном сценарии использования сайта, но даже если она возникнет, то её очень легко разгадать, а вот для бота это затруднение.

Например, я парсил один сайт, а он ровно после 500 страниц показал капчу. Весьма вероятно, что если бы я сидел и кликал по сайту в браузере и накликал за полчаса 500 страниц, то тоже бы увидел капчу.
Ответ написан
Комментировать
@dimuska139
Backend developer
В любом случае каптча периодически, скорее всего, будет появляться. Но это не беда, ведь есть кучи сервисов, которые за копейки их разгадывают. Например, вот. Обычно именно так и делают.
Ответ написан
MaKvc
@MaKvc
Отчаянный веб-разработчик
Я рассуждаю так:
1. Если сайт изначально создан и предполагает API (или иную систему для получения его содержимого), платный\бесплатный, для пользователей, пользуйтесь!
2. Если сайт не предполагает вышеописанного, более того, пытается защитить свой контент, то че ты туда лезешь вообще? Халявщико на чужом горбу в рай уехать, хоть пруд пруди.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы