Нужно распарсить эту страничку:
dailybloggz.com/tfy/andreeva_secrets
Как бы я не пытался, получается всякая лажа с кодировками, изначально, при выводе, получаем русский текст в следующем виде:
\x8d\xe5\xe4\xe0\xe2\xed\xee \xe2\xe8\xe4\xe5\xeb\xe0
Всякие онлайн декодеры заваливались, кроме одного
https://2cyr.com/decode/?lang=ru
Он определил кодировку как MACCYRILLIC, делаю:
print(soup.prettify().encode('MACCYRILLIC'))
На выходе получаю то же самое что и на входе.
.encode('utf-8') - результат тот же самый.
Ну и собственно сам вопрос: Как определить кодировку? Или может быть я сам что-то неправильно делаю?
Весь код модуля:
import urllib.request
from bs4 import BeautifulSoup
url = 'http://dailybloggz.com/tfy/andreeva_secrets/'
req = urllib.request.Request(url, headers={'User-Agent': "Magic Browser"})
con = urllib.request.urlopen(req)
soup = BeautifulSoup(con, "html5lib")
print(soup.prettify().encode('utf-8'))