Как происходит «обновление» кодировок?

Question

littleguga @littleguga

Не стыдно не знать, а стыдно не интересоваться.

Как происходит «обновление» кодировок?

Допустим к utf-8 добавляют еще несколько символов какого-либо языка, каким образом устройства по всему миру начинают отображать/воспринимать данные символы?

Что искать/читать, чтобы разобраться в данной теме?

Вопрос задан более трёх лет назад
1099 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

Простой
Какие технологии/ИИ есть для клонирования русской речи?
- 10 подписчиков
- 17 часов назад
- 208 просмотров
1

ответ
Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 3 подписчика
- 19 нояб.
- 829 просмотров
10

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1467 просмотров
5

ответов
JavaScript

+2 ещё

Простой
Можно ли заменить кликанье мышью по веб-интерфейсу cli-командой?
- 3 подписчика
- 13 сент.
- 1154 просмотра
2

ответа
Программирование

Простой
Оператор, операция, функция, процедура — что всё это значит?
- 1 подписчик
- 05 авг.
- 462 просмотра
2

ответа
Программирование

Простой
Какие есть источники, помогающие понять бизнес-логику проекта?
- 3 подписчика
- 30 июл.
- 940 просмотров
2

ответа
Программирование

Простой
Как готовиться к ВСоШ по информатике 9-11 классов/олимпиадам по программированию вообще?
- 1 подписчик
- 20 июл.
- 305 просмотров
3

ответа
Программирование

+1 ещё

Простой
Ответьте на вопрос по информатике?
- 1 подписчик
- 10 июл.
- 825 просмотров
3

ответа
Программирование

+1 ещё

Средний
Редактирование прошивки китайской камеры видеонаблюдения?
- 1 подписчик
- 01 июл.
- 512 просмотров
2

ответа
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 334 просмотра
3

ответа
Показать ещё Загружается…

Backend developer

Creative Code

До 190 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Backend Developer

Playerok

от 400 000 ₽

Answer 1 · 2016-01-08 17:33:15

UTF-8 — это кодировка, позволяющая (теоретически) 2 млрд символов.
Ограничением Юникода сейчас является кодировка UTF-16, она кодирует только 1 млн символов.

Чтобы устройства по всему миру показывали новые символы, надо…
1. Консорциуму Юникода где-то среди этого миллиона нарисовать новый символ. Сейчас занято около 120 тыс., ещё 130 тыс. — небольшой диапазон в базовой плоскости и две полных плоскости по 2¹⁶ шт. — объявлены пользовательскими и их может занимать кто угодно в пределах своей ОС или программы.
2. Консорциум Юникода публикует изображение символа и обновляет таблицы свойств символа.
• Тип: буква/цифра/пробел/знак препинания/технический знак/управляющий/комбинирующий/…
• Положение в двунаправленном письме: слева направо/справа налево/приспосабливается/управляет. Если приспосабливается — в письме справа налево можно поменять местами, например, скобки, для этого тоже есть поле.
• Письменность: латиница/кириллица/ноты/смайлики/символы валют…
• Как переводят в заглавные буквы и в нормальную форму. Настройка заглавных букв может переписываться локалью, но есть и «общая юникодная» таблица.
3. Разработчик ОС переводит таблицу во внутренний формат ОС и обновляет шрифты. С очередным обновлением ОС шрифты и таблицы придут на компьютер, и будут символы.
4. Чаще всего «левые» символы неверно отображаются в браузере. Для этого разработчики браузеров по хитрым алгоритмам ищут на компьютере пользователя шрифт, где этот символ есть. И, допустим, на вики «рогалика» Brogue (brogue.wikia.com) на моём компьютере ранее отображались все символы монстров, сейчас — пара тотемов не показываются. Видимо, с кучей софта ранее установился подходящий шрифт, а сейчас — фигвам. А на рабочей «десятке» всё в порядке.

Answer 2 · 2016-01-08 17:07:47

Допустим к utf-8 добавляют еще несколько символов какого-либо языка,

Прежде всего, UTF-8 - это не кодировка, а способ кодирования таблиц Unicode, поэтому к UTF-8 ничего добавится не может (таблицы кодировки - это Unicode ... 32 бит на символ - там всем хватит ;-)).

А в Unicode добавляются не символы, а целые страницы. И для работы с ними у вас в системе должны быть установлены соответствующие локали для соответствующих страниц.

Так что за UTF-8 не переживайте ;-)

Как происходит «обновление» кодировок?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт