@zlodiak

Почему не парсится страничка?

Пытаюсь получить html вот такой странички:

#!/usr/bin/env python3

import requests
from bs4 import BeautifulSoup

def get_root_page_html(url: str) -> str:
    html = requests.get(url)
    return html.text

if __name__ == '__main__':
    root_page_html = get_root_page_html('https://hh.ru')
    print(root_page_html)


Запускаю скрипт из консоли, в результате получаю такой вывод:
<html>
<head><title>404 Not Found</title></head>
<body bgcolor="white">
<center><h1>404 Not Found</h1></center>
<hr><center>nginx</center>
</body>
</html>


Подскажите пожалуйста что я делаю не так.

Прежде всего хотелось бы понять делаю ли я что-то не правильно или на сайте действует специальная защита от таких простых парсеров?
  • Вопрос задан
  • 168 просмотров
Решения вопроса 1
alternativshik
@alternativshik
Добавление заголовка User-Agent поможет
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы