Почему не парсится страничка?

Question

zlodiak @zlodiak

Почему не парсится страничка?

Пытаюсь получить html вот такой странички:

#!/usr/bin/env python3

import requests
from bs4 import BeautifulSoup

def get_root_page_html(url: str) -> str:
    html = requests.get(url)
    return html.text

if __name__ == '__main__':
    root_page_html = get_root_page_html('https://hh.ru')
    print(root_page_html)

Запускаю скрипт из консоли, в результате получаю такой вывод:

<html>
<head><title>404 Not Found</title></head>
<body bgcolor="white">
<center><h1>404 Not Found</h1></center>
<hr><center>nginx</center>
</body>
</html>

Подскажите пожалуйста что я делаю не так.

Прежде всего хотелось бы понять делаю ли я что-то не правильно или на сайте действует специальная защита от таких простых парсеров?

Вопрос задан более трёх лет назад
175 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

2 комментария

zlodiak @zlodiak Автор вопроса

alternativshik спасибо, помогло. Подскажите пожалуйста, искать подобные заголовки нужно методом перебора для каждого сайта или это стандартный приём использовать user-agent?

Написано более трёх лет назад
alternativshik @alternativshik

zlodiak, стандартный прием - это прикидываться реальным браузером с реальным юзером. Использовать реальные юзер агенты, куки, а за частую requests даже и не поможет, так как половину сайта рендерит js, из которого данные невозможно получить простым запросом на какой-то урл, а надо сначала выполнить весь жс на странице и только потом уже парсить. Парсинг - это очень обширная и объемная тема и каждый случай надо рассматривать индивидуально.

Написано более трёх лет назад