Как определить кодировку страницы или текста на python?

Question

r10d10 @r10d10

Python

Как определить кодировку страницы или текста на python?

Запрос:
requests.get("https://site.ru", headers)

к двум разным сайтам выдал разные ответы. В одном случае кириллический текст был нормальный, в другом выглядел так:

Ð¡ÐºÑ\x83Ð¿ÐºÐ°

Сделал string.encode('utf-8') но это не помогло и текст стал выглядеть так:

\xc3\x90\xc2\xa1\xc3\x90\xc2\xba\xc3\x91\\x83\

Формально и там и там на сайтах стоит мета-тег UTF-8 но на одном он видимо не соответствует реальной кодировке.

Тогда я посмотрел

print(string.headers)

и не увидел ничего необычного, кодировка никакая не передаётся в заголовках

{'Server': 'nginx', 'Date': 'Wed, 11 Jun 2025 11:41:21 GMT', 'Content-Type': 'text/html', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'Cache-Control': 'max-age=604800, public', 'Content-Encoding': 'gzip'}

Вопроса 2:
1. Какой метод определения истинной колировки веб-страницы лучше использовать
2. Можно ли перекодировать полученный текст в читаемый или всё же его изначально надо забирать правильно а с этим ничего не сделать

Вопрос задан вчера
98 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Adamos @Adamos

let me google it for you: "картинка определение кодировки"

Написано вчера
Vitalya Ivanov @vla3d

Adamos,
вот она

Интересно, а как определить в итоге? Вывести полученный ответ в консоль, например, и посмотреть глазами?

Написано вчера
Adamos @Adamos

Vitalya Ivanov, зависит от задачи. Если нужен универсальный определятор - глазами, только глазами программиста. То есть вписать в UTF-8 текст вот эти варианты - и посмотреть на них в HEX-редакторе. Получим набор шаблонов типа "если в потоке вот эти байты - то текст надо перевести из UTF-8 в CP1252, а потом из CP1251 в UTF-8, тогда будет кириллица".

Написано вчера
theurs @theurs

https://ftfy.readthedocs.io/en/latest/

Написано вчера
Vitalya Ivanov @vla3d

Adamos, понял, спасибо, буду иметь ввиду

Написано 8 часов назад

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как создать/изменить примечание (Note) в Google.Sheets.API?
- 1 подписчик
- 7 часов назад
- 22 просмотра
0

ответов
Python

Простой
Какое исключение выбрать в python?
- 1 подписчик
- вчера
- 100 просмотров
2

ответа
Python

Простой
Что тут можно упростить в коде?
- 1 подписчик
- вчера
- 802 просмотра
0

ответов
Python

+3 ещё

Простой
Как хранить и показывать локальные файлы в CRM (frontend + backend)?
- 1 подписчик
- 10 июн.
- 130 просмотров
1

ответ
Python

Средний
Можно ли улучшить приложенный AutoEnum (см. код ниже) в python?
- 1 подписчик
- 09 июн.
- 115 просмотров
1

ответ
Python

Простой
Как правильно вывести результат регулярного выражения в Python?
- 1 подписчик
- 09 июн.
- 118 просмотров
2

ответа
Python

+1 ещё

Простой
Где лучше создать папку для проекта и вирутальное окружение к нему?
- 3 подписчика
- 07 июн.
- 1957 просмотров
3

ответа
Python

+3 ещё

Средний
В чём может быть причина, что при работе через Telethon с явно заданным SOCKS5-прокси Telegram определяет локацию устройства не по IP прокси?
- 1 подписчик
- 05 июн.
- 180 просмотров
1

ответ
Python

+1 ещё

Простой
Почему api золотого яблока блокирует все запросы?
- 1 подписчик
- 05 июн.
- 738 просмотров
2

ответа
Показать ещё Загружается…

Python разработчик

ITK academy • Саратов

от 75 000 ₽

Программист Python

SPA2099 • Москва

До 100 000 ₽

Backend Python developer

HR Prime • Москва

от 300 000 до 3 800 000 ₽

let me google it for you: "картинка определение кодировки"
Adamos,
вот она

Интересно, а как определить в итоге? Вывести полученный ответ в консоль, например, и посмотреть глазами?
Vitalya Ivanov, зависит от задачи. Если нужен универсальный определятор - глазами, только глазами программиста. То есть вписать в UTF-8 текст вот эти варианты - и посмотреть на них в HEX-редакторе. Получим набор шаблонов типа "если в потоке вот эти байты - то текст надо перевести из UTF-8 в CP1252, а потом из CP1251 в UTF-8, тогда будет кириллица".
Adamos, понял, спасибо, буду иметь ввиду

Answer 1 · 2025-06-11 18:37:24

Похожий вопрос рассматривался здесь:
https://stackoverflow.com/questions/436220/how-to-...

Может помочь модуль chardet.

Пример работы модуля из документации:

>>> import urllib.request
>>> rawdata = urllib.request.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}

Answer 2 · 2025-06-11 19:58:46

Расскажу что мне помогло.
1. Сохраняем результат в байтовом и текстовом виде в разных переменных
2. Проверяем полученный текстовый вид на любые русские буквы так a|o|е если ни одной из них нет, то у нас неправильная кодировка
3. Берём тогда вариант байтового представления из первого пункта и перекодируем bytes.decode('utf_8') кодировку надо подобрать заранее
Все кодировки доступные вот на этой странице в документации https://docs.python.org/3/library/codecs.html

Как определить кодировку страницы или текста на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт