Как заменить utf8 символы?

Question

Анатолий @Skit25

на всё воля Бога

Как заменить utf8 символы?

Здравствуйте!
Текст кишит юникодом. Нужно мультибайтные символы "сбросить" или ресетнуть. Например ā в а. Как это правильно сделать?

Я так понимаю символ "a" основной, а крыжик сверху дополнительный. Возможно, можно как-то отсечь дополнительные символы от основного.

Если конвертировать кодировку строки то будет не bar, а b?r

Вопрос задан более трёх лет назад
1976 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

8 комментариев

Анатолий @Skit25 Автор вопроса

Верно понимаете, нужен поиск. Исходные статьи с юникодом, чтобы не напрягать поисковую систему, я пересохраню статьи без этих символов.
Сейчас займусь реализацией, в ответе выше, по ссылке на хабр есть реализация на C/C++, Java и PHP.

Написано более трёх лет назад
Анатолий @Skit25 Автор вопроса

На php, я разложил мультибайтовые символы, на выводе ни чего не поменялось, видимо за счет локали. Когда конвертирую кодировку, получаю не "b?r" как раньше, а "ba?r", понятно, диакритику нужно очистить, не понятно как.
т. е. можно взять категории Lu и Ll, если у вас чистый текст, либо очистить от Mn будет достаточно.

Можно немного подробнее: Lu, Li, Mn?

Написано более трёх лет назад
Дмитрий @TrueBers

Анатолий:
Когда конвертирую кодировку
Нормализация никак не может влиять на кодировку, как и кодировка на нормализацию, она применяется к сырым кодюнитам.

Можно немного подробнее: Lu, Li, Mn?
Это категории символов из UnicodeDatabase: uppercase, lowercase и nonspacing mark (та самая диакритика).

У вас ещё одна будет проблема, как минимум: нужно обрабатывать case-folding. Т.е. если пользователь ввёл нижний регистр, то игнорируем его. Если верхний, то учитываем. Если с диакритикой ищет, то тоже учитывать. По крайней мере, так стандарт рекомендует, как вы сделаете, уж не знаю.

Если у вас нет таких требований, просто разложите в декомпозицию, а потом итерируйтесь по кодпоинтам и смотрите на их категории, игнорируйте ненужные категории, и т. п.
В общем, пока я вашу задачу не знаю, может быть масса вариантов. Юникод — просто штука довольно объёмная, хоть и не сложная, как многие считают.

Написано более трёх лет назад
Анатолий @Skit25 Автор вопроса

Дмитрий:
Задача убрать мултибайтовые символы из материала, чтобы не усложняли жизнь. Диакритика не нужна.

Базу символов юникода, я не нашел.
Про конвертацию кодировки. После нормализации остается однобайтный символ и символ юникода, я не нашел способ очистить строку от этого "мусора". После конвертации кодировки, эти символы выдаются как знаки вопроса, в принципе, теперь можно регулярным выражением убирать знаки вопроса, но они могут быть на конце, где может находиться законный знак вопроса по тексту. Регулярка сложная получится...

Написано более трёх лет назад
Дмитрий @TrueBers

Задача убрать мултибайтовые символы из материала

Тогда это никак не связано с нормализацией. Мультибайтовость — это свойство конкретной кодировки, а не Юникода в целом. Вы её убрать не сможете никак, если кодировка использует мультибайтовые последовательности, значит ей это нужно. Например, русский алфавит в UTF8 будет мультибайтовым всегда, независимо от диакритики и неитерируемых глифов.

Вы же, вроде, говорили, что нужен поиск? Для поиска не нужно ничего делать с перекодировками и мультибайтовостью.

Базу символов юникода, я не нашел.

А вам и не нужно о ней ничего знать, её использует та библиотека, которую вы используете для обработки Юникода. Руками всё это писать нереально, там слишком громадные объёмы.

Написано более трёх лет назад
Анатолий @Skit25 Автор вопроса

Вы создаете впечатление умного человека, но в то же время не можете понять что мне нужно. Мультибайт, это значит не один байт и не два, а мульти. Например мультимедиа, это не только mp3, но и avi, и т.п. предположим.
По аналогии, мне нужно конвертировать в моно аудиодорожку, не 5.1, не стерео и долби, а моно.
Еще раз, из основного поста
Например ā в а

Я прошу вас не придираться к моему опыту работы с этим вопросом. Я могу чего-то не так сказать или перепутать. Однако, я стараюсь говорить очевидные вещи, простым языком.
Сейчас я нормализовал ā в а?. Осталось убрать диакритику.

Делаю, это на php, c другими языками я не работал.
А вам и не нужно о ней ничего знать, её использует та библиотека, которую вы используете для обработки Юникода.

Копаюсь, но не могу найти. Normalize есть, но как убрать лишнее, пока не понятно.

Написано более трёх лет назад
Дмитрий @TrueBers

Анатолий: ну, потому что вы путаете понятия. Я же не могу знать, что у вас на уме.
Utf-8 по умолчанию мультибайтовая. Либо вам нужна другая кодировка для этого, либо вы путаете мультиьбйтовость с чем-то другим.
Т. е.. если вы даже очистите диакритику у кириллицы, например, она все равно останется мультибайтовой ибо того требует спецификация.

Опишите задачу чуть подробнее в вашем контексте, может быть, будет проще понять

Написано более трёх лет назад
Анатолий @Skit25 Автор вопроса

Есть парсер, который собирает статьи.
На данном этапе бэк и фронт еще пилятся. Мне необходимо в файлы сохранить статьи. Имя файла, это тег тайтл, где встречаются символы с диакритикой.
Имя файла я не могу задать как есть, мне нужно убрать диакритику и сохранить название файла.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 135 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 699 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 225 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 481 просмотр
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 257 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 203 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 162 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2484 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 353 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 194 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2017-06-19 16:45:04

Я так понимаю символ "a" основной, а крыжик сверху дополнительный. Возможно, можно как-то отсечь дополнительные символы от основного.

Неправильно понимаете. Символ ã - это отдельная буква в португальском алфавите, в Unicode - U+00E3 Latin small letter a with tilde. Далеко не факт, что вместо неё можно корректно использовать букву a.
А в чём вообще цель такой конвертации? Не проще ли работать в utf-8?
Если это реально необходимо, то посмотрите эту статью: https://habrahabr.ru/post/45489/

Answer 2 · 2017-06-19 16:45:23

Я так понимаю символ "a" основной, а крыжик сверху дополнительный.

Неправильно вы понимаете, это один символ

ā	257
U+101
LATIN SMALL LETTER A WITH MACRON

Можно посмотреть здесь, например: xahlee.info/comp/unicode_index.html

Можете воспользоваться iconv, но желательно знать исходную кодировку.

$result = iconv('Windows-1251', 'ASCII//TRANSLIT', $src);
$result = iconv('UTF-8', 'ASCII//TRANSLIT', $src);

Answer 3 · 2017-06-19 20:55:02

Правильно понимаете.
Осталось понять, для чего вам это нужно. Вероятно, вы хотите поиск реализовать? Типа ищешь 'а', при этом матчится 'ā'? Других вариантов не могу придумать...

Если так, то достаточно при поиске использовать форму декомпозиции NFKC с последующей канонической рекомпозицией. Она проводит рекомпозицию по правилам совместимости, будут матчиться даже те глифы, которые визуально не похожи на исходный. Т. е. когда в языке может заменяться один символ на абсолютно другой, но при этом иметь то же самое значение.

Если нужно "просто снять крыжечку", то используйте обычную каноническую декомпозицию NFD. Она разберёт всё на составные части. Потом нужно пройтись снова по массиву и очистить диакритику, т. е. можно взять категории Lu и Ll, если у вас чистый текст, либо очистить от Mn будет достаточно.

Пример на Питоне:

>>> import unicodedata
>>> unicodedata.decomposition(unicodedata.lookup('LATIN SMALL LETTER A WITH MACRON'))
'0061 0304'
>>> unicodedata.decomposition(unicodedata.lookup('LATIN SMALL LETTER A WITH TILDE'))
'0061 0303'

Как заменить utf8 символы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт