littleguga
@littleguga
Не стыдно не знать, а стыдно не интересоваться.

Как происходит «обновление» кодировок?

Допустим к utf-8 добавляют еще несколько символов какого-либо языка, каким образом устройства по всему миру начинают отображать/воспринимать данные символы?

Что искать/читать, чтобы разобраться в данной теме?
  • Вопрос задан
  • 1071 просмотр
Пригласить эксперта
Ответы на вопрос 2
@Mercury13
Программист на «си с крестами» и не только
UTF-8 — это кодировка, позволяющая (теоретически) 2 млрд символов.
Ограничением Юникода сейчас является кодировка UTF-16, она кодирует только 1 млн символов.

Чтобы устройства по всему миру показывали новые символы, надо…
1. Консорциуму Юникода где-то среди этого миллиона нарисовать новый символ. Сейчас занято около 120 тыс., ещё 130 тыс. — небольшой диапазон в базовой плоскости и две полных плоскости по 216 шт. — объявлены пользовательскими и их может занимать кто угодно в пределах своей ОС или программы.
2. Консорциум Юникода публикует изображение символа и обновляет таблицы свойств символа.
• Тип: буква/цифра/пробел/знак препинания/технический знак/управляющий/комбинирующий/…
• Положение в двунаправленном письме: слева направо/справа налево/приспосабливается/управляет. Если приспосабливается — в письме справа налево можно поменять местами, например, скобки, для этого тоже есть поле.
• Письменность: латиница/кириллица/ноты/смайлики/символы валют…
• Как переводят в заглавные буквы и в нормальную форму. Настройка заглавных букв может переписываться локалью, но есть и «общая юникодная» таблица.
3. Разработчик ОС переводит таблицу во внутренний формат ОС и обновляет шрифты. С очередным обновлением ОС шрифты и таблицы придут на компьютер, и будут символы.
4. Чаще всего «левые» символы неверно отображаются в браузере. Для этого разработчики браузеров по хитрым алгоритмам ищут на компьютере пользователя шрифт, где этот символ есть. И, допустим, на вики «рогалика» Brogue (brogue.wikia.com) на моём компьютере ранее отображались все символы монстров, сейчас — пара тотемов не показываются. Видимо, с кучей софта ранее установился подходящий шрифт, а сейчас — фигвам. А на рабочей «десятке» всё в порядке.
Ответ написан
Olej
@Olej
инженер, программист, преподаватель
Допустим к utf-8 добавляют еще несколько символов какого-либо языка,

Прежде всего, UTF-8 - это не кодировка, а способ кодирования таблиц Unicode, поэтому к UTF-8 ничего добавится не может (таблицы кодировки - это Unicode ... 32 бит на символ - там всем хватит ;-)).

А в Unicode добавляются не символы, а целые страницы. И для работы с ними у вас в системе должны быть установлены соответствующие локали для соответствующих страниц.

Так что за UTF-8 не переживайте ;-)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы