Как запарсить страницу?

Question

vlad__is_lav @vlad__is_lav

Как запарсить страницу?

Нужно перевести таблицу с сайта https://tomsk.hh.ru/article/31475 в exel для учебного проекта, решил написать парсер на python и сразу же столкнулся с проблемой. При запросе именно на эту страницу выдает 404. Пробовал подключиться к любым другим сайтам - все ок, код 200. Может ли на hh.ru стоять какая-то защита от парсинга?) В чем может быть проблема и как ее решить? Запрос делал так:
import requests
from bs4 import BeautifulSoup

url = 'https://tomsk.hh.ru/article/31475'
response = requests.get(url)
print(response)

Вопрос задан более года назад
121 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Простой
Как с помощью Kaspersky Security Center запустить скрипт?
- 1 подписчик
- вчера
- 98 просмотров
0

ответов
Python

+2 ещё

Простой
Как в группе Telegram ответить скриптом на сообщение пользователя, на которое я отвечал сообщением, которое как раз таки запустило скрипт (telethon)?
- 1 подписчик
- вчера
- 103 просмотра
1

ответ
Python

Простой
Почему у меня программа вообще не реагирует на свойства в python?
- 1 подписчик
- 02 авг.
- 178 просмотров
3

ответа
Python

Простой
Python клон проекта, как создать?
- 1 подписчик
- 01 авг.
- 165 просмотров
1

ответ
Python

+2 ещё

Простой
Как добавить опцию в контекстное меню для Internet Shortcuts?
- 1 подписчик
- 30 июл.
- 127 просмотров
1

ответ
Парсинг

+1 ещё

Средний
Есть ли бесплатная возможность получить исторические данные мемкоинов в Solana DEX?
- 1 подписчик
- 30 июл.
- 38 просмотров
0

ответов
Python

+2 ещё

Простой
Как в Pyrogram получить id отправленного сообщения?
- 1 подписчик
- 30 июл.
- 96 просмотров
1

ответ
Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 252 просмотра
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 26 июл.
- 153 просмотра
2

ответа
Парсинг

+1 ещё

Простой
Ошибка в коде парсера Ozon, что не так?
- 1 подписчик
- 26 июл.
- 177 просмотров
0

ответов
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2024-02-20 16:30:15

Может ли на hh.ru стоять какая-то защита от парсинга?)

Самая примитивная, которая чекает заголовки:

import requests
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.9',
    'Accept-Encoding': 'gzip, deflate',
    'Connection': 'keep-alive',
}

res = requests.get('https://tomsk.hh.ru/article/31475', headers=headers)

if res.status_code == 200:
    soup = BeautifulSoup(res.text, 'html.parser')
    el = soup.find('div', class_='URS-ratingTable')

    if el:
        print(el)
    else:
        print('Table not found!')
else:
    print('The problem with connecting to the website', {res.status_code})

Как запарсить страницу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт