Как интерпретируется кодировка текста?

Question

beduin01 @beduin01

Python
C

Как интерпретируется кодировка текста?

Интересует именно низкоуровневый аспект. Каждая кодировка в том же UTF-8 это битовая строка. Символы в ней имеют переменную длину. Как я понимаю в некоторых случаях в UTF-8 1 символ может быть 16 бит (буква со шляпкой какая-нить).

Проблема в том что кодировок то много. Вопрос в том как редактор при чтении понимает какая перед ним кодировка.

Ведь если к примеру буква "ö" записывается двумя байтами, то как редактор понимает, что эти два байта одна буква?

Вопрос задан более трёх лет назад
245 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 79 просмотров
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 121 просмотр
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 190 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 218 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 75 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 198 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 228 просмотров
1

ответ
C

+4 ещё

Средний
Почему прошивка для STM32F103 не запускается после перехода с Keil на Cmake?
- 1 подписчик
- 11 дек.
- 113 просмотров
0

ответов
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 247 просмотров
0

ответов
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2017-02-09 09:10:28

Roman Mindlin @kgbplus

Принцип кодирования UTF-8

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2017-02-09 12:10:58

Возможно редакторы пытаются угадать эвристически.
В частном случае, текст в кодировке UTF-8 опционально может иметь маркер BOM (Byte Order Mark) в начале текста, что может указывать на кодировку UTF-8.
Предполагаю, что обычно редакторы по умолчанию пытаются угадать кодировку текста, исходя из того на какой ОС установлены или согласно своим собственным порядкам. На Windows это UTF-16LE, в Linux/BSD - UTF-8. Хотя и в передачи текста в интернете тоже UTF-8.
Кодировка текста - неотъемлемый атрибут текста, поэтому в HTTP в Content-Type опционально указывается charset=utf-8. Если не указано, браузер исходит из настроек ОС и пользователя.

Как интерпретируется кодировка текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт