Почему «й» (и-краткая) в UTF-8 файловой системе Linux занимает 4 байта?

Question

Сергей Соколов @sergiks

♬♬

Почему «й» (и-краткая) в UTF-8 файловой системе Linux занимает 4 байта?

На сервере CentOS 7.8 лежат файлы с именами кириллицей. Например, Юрий.jpg
В имени этого файла первые три буквы по 2 байта, а «Й» почему-то аж 4:

%D0%AE%D1%80%D0%B8%D0%B8%CC%86.jpg

А когда приходит веб-запрос c кириллицей, все буквы, включая «й» – по 2 байта:

%D0%AE%D1%80%D0%B8%D0%B9.jpg

(Оба примера через php urlencode())

Требуется по веб-запросу с параметром «Юрий» найти соответствующий локальный файл. Как лучше решить эту задачу с неоднозначностью кодирования некоторых букв?

Пока думаю переименовать файлы, заменяя длинную последовательность для «Й» на нормальные 2 байта. Видимо, файлы так переносили на сервер, что некоторые символы так исказились. Если создать новый файл с русским именем, проблемы нет - каждый символ по 2 байта.

Но неясно, какие ещё символы исказились. Вряд ли только «й».

Вопрос задан более трёх лет назад
252 просмотра

3 комментария

Подписаться 1 Простой 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Кодировка символов

Простой
Как создать нечитаемые символы?
- 1 подписчик
- 25 мар.
- 213 просмотров
0

ответов
Кодировка символов

Простой
Неверные символы при копировании?
- 2 подписчика
- 21 янв.
- 267 просмотров
0

ответов
JavaScript

+4 ещё

Сложный
Почему в WebSockets History в Burp Suite отображаются кракозябры?
- 1 подписчик
- 21 дек. 2024
- 224 просмотра
2

ответа
C++

+1 ещё

Средний
Как это сделать это задание на c++?
- 1 подписчик
- более года назад
- 254 просмотра
0

ответов
Кодировка символов

+1 ещё

Средний
Слетает кодировка Outlook 2019. Как поправить?
- 1 подписчик
- более года назад
- 1474 просмотра
1

ответ
C#

+1 ещё

Средний
Что делать когда при конвертации из utf8 в string я получаю (string)\0\0\0 и так далее?
- 1 подписчик
- более года назад
- 142 просмотра
1

ответ
C++

+1 ещё

Средний
Как сравнить char в с++ на пустоту?
- 1 подписчик
- более года назад
- 264 просмотра
1

ответ
Python

+2 ещё

Простой
Почему хранимая процедура MySQL не принимает кириллицу?
- 3 подписчика
- более года назад
- 164 просмотра
1

ответ
Программирование

+4 ещё

Средний
Как увидеть русские символы в обычной строке в отладчике Visual studio?
- 1 подписчик
- более года назад
- 343 просмотра
2

ответа
Windows

+2 ещё

Простой
Можно ли узнать какая кодировка использовалась в системе, в которой был создан файл?
- 1 подписчик
- более года назад
- 379 просмотров
2

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Senior Frontend / Product Engineer (Tauri + Vue) — Solo Role

Poker Training

от 250 000 до 300 000 ₽

Переименовывать. Не хранить в кириллице.
Ну вообще, в первом варианте у вас два совмещенных символа, "и" + ̆
Во втором - нормальная целиковая "й"
15432, вот интересно, на каком этапе их так разорвало ) Подозреваю rsync с мака на linux.
И, главное, где ещё ждать подвоха: с какими символами.

Answer 1 · 2020-11-27 10:49:07

Спасибо hint000 за разъяснение со ссылкой на Алгоритмы Нормализации в Unicode — там как раз в таблице пример с «й». Узнал про NFD, NFC.

В итоге в PHP при поиске файла с названием кириллицей по принятому параметру нормализую параметр в NFD (в котором оказались локальные файлы) с помощью класса Normalizer:

Normalizer::normalize($cyrillic_name, Normalizer::FORM_D)
// преобразует имя "Юрий" из
// "%D0%AE%D1%80%D0%B8%D0%B9"
// в
// "%D0%AE%D1%80%D0%B8%D0%B8%CC%86" – как в локальных файлах оказалось.

Answer 2 · 2020-11-27 00:20:23

Потому что "й" состоит из двух глифов: "и" + глифа сверху нее, которые при выводе на экран комбинируются в один символ "й".
И криминала в этом совершенно нет.

Почему «й» (и-краткая) в UTF-8 файловой системе Linux занимает 4 байта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт