@calamandor

CodeForces добавил защиту от парсинга?

Недавно парсил сайт codeforces на bs4, две недели назад такой же код выдает response 403, из-за чего может быть ошибка? Я думал, что сайт добавил антипарсер, но ведь он на плаву уже 10 лет. Кто знает, пожалуйста помогите
  • Вопрос задан
  • 129 просмотров
Пригласить эксперта
Ответы на вопрос 2
Mike_Ro
@Mike_Ro Куратор тега Selenium
Python, JS, WordPress, SEO, Bots, Adversting
$ curl https://codeforces.com/
<!DOCTYPE html><html lang="en-US"><head><title>Just a moment...</title><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge">

Первый ответ сервера (а bs4 в большее и не умеет), возвращает среди прочего < title>Just a moment... title>, уже как бы намекая, что там что то происходит... Защита может быть элементарной, но не видя Ваш код, говорить о решение не приходится.
Ответ написан
Комментировать
@Giperoglif
ну, во-первых, он за клаудфларе

The site https://codeforces.com/ is behind Cloudflare (Cloudflare Inc.) WAF.


если раньше не был, то надо смотреть историю днс, может быть, если сильно повезет, то какой-то из айпи адресов будет прямым их веб-сервера, рабочим и открытым для коннектов не с клаудфларе..
второй вариант - попробовать получить от них письмо. и опять же, если сильно повезёт и они отправляют почту с основного веб-сервера то айпи можно увидеть в заголовках письма(частенько так WAF можно обойти).

если ничего не выйдет, то стоит попробовать патченый курл, который максимально мимикрирует под браузер. гуглить "curl impersonate". возможно клаудфларе его пропустит, но надо тестить.

при вообще полном отчаянии попробовать selenium, под пайтон, насколько мне известно, тоже существует какой-то патченый для этих дел, но я не питонист.

в общем, простор для творчества! парсинг - это весело)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы