Проблема с парсингом сайта, кракозяблы и непонятные символы вместо HTML?

Question

HE_TYPOY @HE_TYPOY

Beautiful Soup

Проблема с парсингом сайта, кракозяблы и непонятные символы вместо HTML?

Нужно получить HTML код главной страницы для дальнейшего парсинга. При принте responce.text вылезают всякие кракозяблы, при responce.content вроде байты. Как я знаю там должен быть HTML код страницы. В чем проблема? Код:

from bs4 import BeautifulSoup as BS
import requests

cookies = {
    '_ga': 'GA1.1.1277669031.1717327519',
    '_ga_KNQZH7H2SM': 'GS1.1.1721982696.18.0.1721982696.0.0.0',
}

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7,uk;q=0.6',
    'Cache-Control': 'max-age=0',
    'Connection': 'keep-alive',
    # 'Cookie': '_ga=GA1.1.1277669031.1717327519; _ga_KNQZH7H2SM=GS1.1.1721982696.18.0.1721982696.0.0.0',
    'Referer': 'https://www.google.com/',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'same-origin',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36',
    'sec-ch-ua': '"Not/A)Brand";v="8", "Chromium";v="126", "Google Chrome";v="126"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

response = requests.get('https://www.cherkasyoblenergo.com/', cookies=cookies, headers=headers)
soup = BS(response.text,"lxml")
print(response.text)

Спасибо за любую помощь.

Вопрос задан более года назад
185 просмотров

4 комментария

Подписаться 1 Средний 4 комментария

mayton2019 @mayton2019

При принте responce.text

Принт не считается легальным методом проверки кодировок. Твоя консоль может что-то не поддерживать.

Проверяй по другому.

Написано более года назад
HE_TYPOY @HE_TYPOY Автор вопроса
with open("index.html","w") as file: file.write(response.text)

Выдает ошибку: UnicodeEncodeError: 'charmap' codec can't encode character '\ufffd' in position 1: character maps to
Написано более года назад
kamenyuga @kamenyuga

В питоне у функции open есть параметр encoding. По умолчанию он задается операционной системой. Поставь конкретное значение руками. В твоем случае скорее всего UTF-8.

Написано более года назад
HE_TYPOY @HE_TYPOY Автор вопроса

kamenyuga, Не работает(

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

12 комментариев

HE_TYPOY @HE_TYPOY Автор вопроса
with open("index.html","w") as file: file.write(response.text)

Выдает ошибку: UnicodeEncodeError: 'charmap' codec can't encode character '\ufffd' in position 1: character maps to . В файл ничего не записалось.
Написано более года назад
Vindicar @Vindicar

HE_TYPOY, так записывай байты, а не текст. Используй response.content, и открывай файл в бинарном режиме "wb".

Написано более года назад

HE_TYPOY @HE_TYPOY Автор вопроса

response = requests.get('https://www.cherkasyoblenergo.com/', cookies=cookies, headers=headers)
soup = BS(response.text,"lxml")
with open("index.html","wb") as file:
    file.write(response.content)

Все равно не получаеться.

Написано более года назад

Vindicar @Vindicar

HE_TYPOY, эммм... ну-ка, начало файла покажи?

Просто сайт отдаёт ещё заголовок Content-Encoding: gzip, может, у тебя requests почему-то gzip не разжимает?

Написано более года назад
HE_TYPOY @HE_TYPOY Автор вопроса

Первые строки?

Написано более года назад
Vindicar @Vindicar

HE_TYPOY, да. А лучше глянь, первые два байта случаем не b'\x1f\x8b'?

Написано более года назад
HE_TYPOY @HE_TYPOY Автор вопроса

Vindicar, В файле байтов нет там каша из символов.

Написано более года назад
Vindicar @Vindicar

HE_TYPOY, блин, тебе на пальцах всё объяснять?
Во-первых, у тебя есть response.content. Ты прекрасно можешь сделать print(repr(response.content[0:2])) чтобы увидеть первые два байта.
Во-вторых, бинарные файлы можно и нужно открывать каким-нибудь редактором, который умеет шестнадцатеричный режим. Тогда будет видно, где какой байт

Написано более года назад
HE_TYPOY @HE_TYPOY Автор вопроса

Vindicar, b'\x1f\x8b' да они

Написано более года назад
Vindicar @Vindicar

HE_TYPOY, ну вот и ответ, сервер отдаёт контент, сжатый gzip, а у тебя почему-то requests не распаковывает, а отдаёт как есть сжатый. Не уверен, с чём это связано, но ты можешь попробовать добавить в запрос заголовок Accept-Encoding: identity, чтобы попросить сайт отдавать только несжатый контент. Если не сработает - в питоне есть модуль gzip, он позволяет вручную распаковать переданную строку байт.

Написано более года назад
HE_TYPOY @HE_TYPOY Автор вопроса

Спасибо, попробую.

Написано более года назад
HE_TYPOY @HE_TYPOY Автор вопроса

Спасибо, вроде помогло.

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг. 2025
- 112 просмотров
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- более года назад
- 276 просмотров
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- более года назад
- 235 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- более года назад
- 150 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- более года назад
- 267 просмотров
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- более года назад
- 301 просмотр
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- более года назад
- 204 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 147 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 90 просмотров
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 90 просмотров
2

ответа
Показать ещё Загружается…

При принте responce.text

Принт не считается легальным методом проверки кодировок. Твоя консоль может что-то не поддерживать.

Проверяй по другому.
with open("index.html","w") as file: file.write(response.text)

Выдает ошибку: UnicodeEncodeError: 'charmap' codec can't encode character '\ufffd' in position 1: character maps to
В питоне у функции open есть параметр encoding. По умолчанию он задается операционной системой. Поставь конкретное значение руками. В твоем случае скорее всего UTF-8.

Answer 1 · 2024-07-26 14:21:18

Vindicar @Vindicar

RTFM!

Сайт утверждает, что отдаёт Content-Type: text/html;charset=utf-8.
Попробуй сохранить в файл и открыть тем же Notepad++.

Ответ написан более года назад

12 комментариев

Проблема с парсингом сайта, кракозяблы и непонятные символы вместо HTML?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт