Как декодировать байты в строку в питон?

Question

Taylor_Superhero @Taylor_Superhero

Python

Как декодировать байты в строку в питон?

soup = content.decode('utf-8')
Пытаюсь декодировать приходящую HTML страницу из байт в строку. Вот ошибка UnicodeEncodeError: 'charmap' codec can't encode character '\xf8' in position 3901: character maps to undefined.
Могу ли я как-то научить UTF распознавать все символы, или может можно игнорировать неизвестные?

Вопрос задан более трёх лет назад
779 просмотров

7 комментариев

Подписаться 1 Оценить 7 комментариев

sim3x @sim3x

какой питон
какой софт
какой код

вызывают ошибку?

Написано более трёх лет назад
abcd0x00 @abcd0x00

При неправильном раскодировании через decode() будет UnicodeDecodeError. Так что то, что тут написано про UnicodeEncodeError, - это левая туфта какая-то.

Написано более трёх лет назад
Taylor_Superhero @Taylor_Superhero Автор вопроса

abcd0x00: sim3x: Питон 3.5, получают тело документа через urllib или requests, тело приходит в байтах, нужно распарсить, а сначала декодировать. И это вовсе не левая туфта как вы написали, а особенность. prntscr.com/bwwq8f

Написано более трёх лет назад
sim3x @sim3x

Taylor_Superhero: реквестс сам декодирует

покажи свой код

Написано более трёх лет назад
abcd0x00 @abcd0x00

Taylor_Superhero: В третьем питоне ты никак не получишь такое, потому что у строк нет метода decode().

Написано более трёх лет назад
Taylor_Superhero @Taylor_Superhero Автор вопроса

sim3x: тело приходящего документа приходит с пометкой b' и type() подтверждает что это байты. Не декодирует он. Показать код? Да это три строки prntscr.com/bx5xs4 .

Написано более трёх лет назад
sim3x @sim3x

Taylor_Superhero: тем более скопируй и вставь в вопрос все три строки

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

7 комментариев

Taylor_Superhero @Taylor_Superhero Автор вопроса

chardet ведь только определяет кодировку? Она utf-8. А есть какой-то пример, как реализовать замену или игнорирование методом decode?

Написано более трёх лет назад
abcd0x00 @abcd0x00

Taylor_Superhero: chardet тебе не нужен, кодировка обычно передаётся вместе со страницей в http-заголовках. В питоне она вытаскивается из ответа urllib.request.urlopen(), который передаётся в виде email.message.Message().
python.org. get_content_charset()

Написано более трёх лет назад
Taylor_Superhero @Taylor_Superhero Автор вопроса

abcd0x00: ребят, спасибо конечно, но мне известна кодировка изначально, а вот как пропускать не декодирующиеся символы?

Написано более трёх лет назад
Dimonchik @dimonchik2013

для начала так .decode('utf-8', 'ignore') , ну а потом уже выкидыванием регекспом

Написано более трёх лет назад
Taylor_Superhero @Taylor_Superhero Автор вопроса

dimonchik2013: к сожалению уже пробовал, при игноре тоже срабатывает ошибка. Находил подобную тему на стэковерфлоу, но там что-то не помогли.

Написано более трёх лет назад
Dimonchik @dimonchik2013

на стеке есть ответ, но не в одном топике ) смотрите на смежные топики

Написано более трёх лет назад
abcd0x00 @abcd0x00

Taylor_Superhero: кодировка может измениться на стороне сервера в любой момент, поэтому её надо определять автоматически каждый раз. Иначе ты будешь 1000 раз раскодировать правильно, а 1001 раз раскодировать неправильно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 5 часов назад
- 61 просмотр
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 201 просмотр
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 131 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 110 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 245 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 137 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 139 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 252 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 423 просмотра
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

какой питон
какой софт
какой код

вызывают ошибку?
При неправильном раскодировании через decode() будет UnicodeDecodeError. Так что то, что тут написано про UnicodeEncodeError, - это левая туфта какая-то.
abcd0x00: sim3x: Питон 3.5, получают тело документа через urllib или requests, тело приходит в байтах, нужно распарсить, а сначала декодировать. И это вовсе не левая туфта как вы написали, а особенность. prntscr.com/bwwq8f
Taylor_Superhero: реквестс сам декодирует

покажи свой код
Taylor_Superhero: В третьем питоне ты никак не получишь такое, потому что у строк нет метода decode().
sim3x: тело приходящего документа приходит с пометкой b' и type() подтверждает что это байты. Не декодирует он. Показать код? Да это три строки prntscr.com/bx5xs4 .
Taylor_Superhero: тем более скопируй и вставь в вопрос все три строки

Answer 1 · 2016-07-24 12:05:09

юзай chardet для правильной кодировки

универсального решения нет,
но да - можно заменить/выкинуть все не-ascii символы

Как декодировать байты в строку в питон?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт