Как определить кодировку сайта на Python?

Question

AlexRAV @AlexRAV

Как определить кодировку сайта на Python?

Нужно распарсить эту страничку: dailybloggz.com/tfy/andreeva_secrets

Как бы я не пытался, получается всякая лажа с кодировками, изначально, при выводе, получаем русский текст в следующем виде:

\x8d\xe5\xe4\xe0\xe2\xed\xee \xe2\xe8\xe4\xe5\xeb\xe0

Всякие онлайн декодеры заваливались, кроме одного https://2cyr.com/decode/?lang=ru
Он определил кодировку как MACCYRILLIC, делаю:
print(soup.prettify().encode('MACCYRILLIC'))
На выходе получаю то же самое что и на входе.
.encode('utf-8') - результат тот же самый.

Ну и собственно сам вопрос: Как определить кодировку? Или может быть я сам что-то неправильно делаю?

Весь код модуля:

import urllib.request
from bs4 import BeautifulSoup


url = 'http://dailybloggz.com/tfy/andreeva_secrets/'
req = urllib.request.Request(url, headers={'User-Agent': "Magic Browser"})
con = urllib.request.urlopen(req)
soup = BeautifulSoup(con, "html5lib")
print(soup.prettify().encode('utf-8'))

Вопрос задан более трёх лет назад
1643 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

9 комментариев

AlexRAV @AlexRAV Автор вопроса

asd111 ну вот у меня была мысль про кодировку файла, но в PyCharm показывает что стоит utf8. Файл запускаю через встроенную в PyCharm консоль на Windows 7, используя виртуальную среду с питоном 3.5. А у консоли как узнать/изменить кодировку, не подскажете?

Написано более трёх лет назад
asd111 @asd111

AlexRAV: FIle > Settings > Editor > File encodings > IDE encoding-Project encoding-default encoding for property files во всех трех выбрать utf-8

Написано более трёх лет назад
AlexRAV @AlexRAV Автор вопроса

asd111 спасибо большое, чуть позже отпишусь, получилось или нет)

Написано более трёх лет назад
AlexRAV @AlexRAV Автор вопроса

asd111 увы, но нет, у меня в настройках как раз во всех трёх стоит utf-8. Ладно, попробую ещё воспользоваться вашим кодом. Может вообще проблема заключаться в способе вывода? Вы пользуетесь pprint, а я использовал нативный print

Написано более трёх лет назад
AlexRAV @AlexRAV Автор вопроса

asd111 в общем какая-то проблема с консолью в PyCharm. Через командную строку windows выводит данные нормально

Написано более трёх лет назад
asd111 @asd111

AlexRAV: Можно попробовать так: https://www.jetbrains.com/help/pycharm/2016.1/conf...

Написано более трёх лет назад
AlexRAV @AlexRAV Автор вопроса

asd111 все равно какая-то проблема с этим документом, даже полностью с вашим кодом получается ошибка. Encode ломается вот в этом месте документа joxi.ru/V2VdzV6ilEz8rv
В консоли появляется следующее joxi.ru/DrlbJkKtqb852P

Написано более трёх лет назад
asd111 @asd111
AlexRAV: cp866 это кодировка консоли windows, насколько я помню, и ошибка связана с консолью windows на этот раз :) Попробуйте сохранить в текстовый файл примерно так:
import requests data = requests.get("http://dailybloggz.com/tfy/andreeva_secrets/") with open("my_file.html", "w", encoding="utf-8") as f: f.write(data.content.decode('utf-8'))
Написано более трёх лет назад
AlexRAV @AlexRAV Автор вопроса

asd111 даааа, спасибо большое, что помогли разобраться) Я так понимаю, чтобы увидеть приемлимый результат на винде нужно будет менять кодировку у командной строки? Но судя по отзывам тех кто это сделал, это сулит только большими проблемами) Я могу вас как-нибудь отблагодарить за помощь?)

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- час назад
- 24 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 196 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 222 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 618 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 531 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 297 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 550 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 222 просмотра
2

ответа
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 187 просмотров
3

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 131 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-11-12 09:26:54

На сайте utf-8.
Только что проверил

from pprint import pprint

import requests

data = requests.get("http://dailybloggz.com/tfy/andreeva_secrets/")
pprint(data.content.decode('utf-8'))

Все норм выводит.
Может у вас консоль не в utf-8 ?
Кодировка указывается в meta charset в начале страницы.

Answer 2 · 2016-11-12 15:57:22

Вот этот код работает в консоли Pycharm (определение кодировки - автоматически!):

# -*- coding: utf-8 -*-

import urllib.request

resource = urllib.request.urlopen('http://dailybloggz.com/tfy/andreeva_secrets')
charset = resource.headers.get_content_charset()
print(charset)
content =  resource.read().decode(charset)
print(content)

Как определить кодировку сайта на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт