@flexpc

Обход блокировки парсинга?

есть такой код
from bs4 import BeautifulSoup
import requests
from fake_useragent import UserAgent

url = 'https://uchebnik.mos.ru/app_player/532680'

response = requests.get(url, headers={'User-Agent': UserAgent().chrome})

print(response.text)

я вроде бы использую user agent но сайт все равно меня блокает и я получаю такую страницу

Скриншот фрагмента кода удалён модератором.

хотя если я на эту же ссылку зайду с обычного браузера, всё откроется. Никаких капч на сайте нет. Как решить проблему?
  • Вопрос задан
  • 100 просмотров
Решения вопроса 1
Если я захожу обычным браузером сразу на номерную страницу, то получаю "доступ запрещен". Если сначала иду на главную, а потом на номерную, то все работает. Отсюда напрашивается версия, что главная ставит какие-то куки, которые потом проверяются на других страницах. Надо попробовать их сохранять и отправлять обратно.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы