Задать вопрос
@HE_TYPOY

Проблема с парсингом сайта, кракозяблы и непонятные символы вместо HTML?

Нужно получить HTML код главной страницы для дальнейшего парсинга. При принте responce.text вылезают всякие кракозяблы, при responce.content вроде байты. Как я знаю там должен быть HTML код страницы. В чем проблема? Код:
from bs4 import BeautifulSoup as BS
import requests

cookies = {
    '_ga': 'GA1.1.1277669031.1717327519',
    '_ga_KNQZH7H2SM': 'GS1.1.1721982696.18.0.1721982696.0.0.0',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7,uk;q=0.6',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    # 'Cookie': '_ga=GA1.1.1277669031.1717327519; _ga_KNQZH7H2SM=GS1.1.1721982696.18.0.1721982696.0.0.0',
    'Referer': 'https://www.google.com/',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Not/A)Brand";v="8", "Chromium";v="126", "Google Chrome";v="126"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

response = requests.get('https://www.cherkasyoblenergo.com/', cookies=cookies, headers=headers)
soup = BS(response.text,"lxml")
print(response.text)


Спасибо за любую помощь.
  • Вопрос задан
  • 113 просмотров
Подписаться 1 Средний 4 комментария
Пригласить эксперта
Ответы на вопрос 1
Vindicar
@Vindicar
RTFM!
Сайт утверждает, что отдаёт Content-Type: text/html;charset=utf-8.
Попробуй сохранить в файл и открыть тем же Notepad++.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы