@beduin01

Как интерпретируется кодировка текста?

Интересует именно низкоуровневый аспект. Каждая кодировка в том же UTF-8 это битовая строка. Символы в ней имеют переменную длину. Как я понимаю в некоторых случаях в UTF-8 1 символ может быть 16 бит (буква со шляпкой какая-нить).

Проблема в том что кодировок то много. Вопрос в том как редактор при чтении понимает какая перед ним кодировка.

Ведь если к примеру буква "ö" записывается двумя байтами, то как редактор понимает, что эти два байта одна буква?
  • Вопрос задан
  • 244 просмотра
Пригласить эксперта
Ответы на вопрос 2
@kgbplus
Ответ написан
Комментировать
Возможно редакторы пытаются угадать эвристически.
В частном случае, текст в кодировке UTF-8 опционально может иметь маркер BOM (Byte Order Mark) в начале текста, что может указывать на кодировку UTF-8.
Предполагаю, что обычно редакторы по умолчанию пытаются угадать кодировку текста, исходя из того на какой ОС установлены или согласно своим собственным порядкам. На Windows это UTF-16LE, в Linux/BSD - UTF-8. Хотя и в передачи текста в интернете тоже UTF-8.
Кодировка текста - неотъемлемый атрибут текста, поэтому в HTTP в Content-Type опционально указывается charset=utf-8. Если не указано, браузер исходит из настроек ОС и пользователя.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы