Определение кода юникод по символу (PHP)?

Question

Виталий Жук @ZhukV

PHP
Unicode

Определение кода юникод по символу (PHP)?

Привет всему хабрасообществу!

Уже не впервый раз стыкаюсь с задачей определения кода юникода по символу. (Если более детально, то мы парсим некоторые сайты, и если там встречаються китайские ~~крокозабли~~, иерогливы, то мы должны заблокировать этот материал).

Вопрос №1:

Какие есть варианты определение кода, без установки дополнительных расширений на ПХП (Используеться 5.4.9).

Пробывали использовать: pear.php.net/package/Text_LanguageDetect — совсем не подходит. Уж очень сильные погрешности.

Сейчас используем собственную утилиту:

/**
 * Util for detect unicode code by symbols
 */
class UnicodeOrdDetect
{
    /**
     * Detect code for one symbol
     *
     * @param string $char
     * @param string $encoding
     * @param bool $hex
     * @return int
     */
    public static function ord($char, $encoding = null, $hex = true)
    {
        // Default encoding
        if (null === $encoding) {
            $encoding = 'UTF-8';
        }

        if (225 >= ($ordChar = ord($char))) {
            return $hex === true ? dechex($ordChar) : $ordChar;
        }

        $char = mb_convert_encoding($char, 'UCS-4BE', $encoding);

        list (, $ordChar) = unpack('N', $char);

        return $hex === true ? dechex($ordChar) : $ordChar;
    }
}

Для теста сверяли с таблицей: unicode-table.com/ погрешности пока что не нашли.

Вопрос №2:

Корректно ли так определять код юникода, или же есть по лучше способы?

Спасибо!

Вопрос задан более трёх лет назад
8384 просмотра

2 комментария

Подписаться 4 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 445 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2462 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 338 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 182 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 250 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 282 просмотра
3

ответа
Показать ещё Загружается…

Пожалуйста, уточните Вашу конечную задачу. Вам нужно отсечь не киррилическо-латинские символы по их коду UTF-8 или что-то иное?
необходимо в тексте проверить, есть ли там опеределенные символи другого алфавита, к примеру китайского.

Answer 1 · 2013-04-23 22:47:22

Если нужно много и часто сравнивать UTF-8 символы с UNICODE символами, то я бы поступил следующим образом в зависимости от особенностей задачи:

1. Если нужно оставить только символы рус-лат-цифры-препинания, то берем нужные нам UNICODE таблицы с этой страницы www.unicode.org/charts/

(в частности:
Некоторые символы www.unicode.org/charts/PDF/U2100.pdf
Кириллические символы www.unicode.org/charts/PDF/U0400.pdf, www.unicode.org/charts/PDF/U0500.pdf
Знаки препинания www.unicode.org/charts/PDF/U2000.pdf
И еще пунктуация www.unicode.org/charts/PDF/U0080.pdf)

И заранее пересчитываем UNICODE коды из этих таблиц в массив UTF-8 символов

Правила перекодировки UNICODE в UTF-8 можно посмотреть тут en.wikipedia.org/wiki/UTF-8

Bits	Last code point	Byte 1
  7	U+007F	0xxxxxxx

Bits	Last code point	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
  7	U+007F	0xxxxxxx
11	U+07FF	110xxxxx	10xxxxxx
16	U+FFFF	1110xxxx	10xxxxxx	10xxxxxx
21	U+1FFFFF	11110xxx	10xxxxxx	10xxxxxx	10xxxxxx
26	U+3FFFFFF	111110xx	10xxxxxx	10xxxxxx	10xxxxxx	10xxxxxx
31	U+7FFFFFFF	1111110x	10xxxxxx	10xxxxxx	10xxxxxx	10xxxxxx	10xxxxxx

Для тренировки можно взять Word и нажать Alt-X после символа, отобразится его UNICODE значение. Итак, для нашей буквы «Номер» UNICODE значение 2116 (Hex).
Это значение подпадает под правило (битовая маска) U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
При помощи calc преобразуем 2116 (Hex) в двоичный вид 10000100010110 (Bin).
Вставляем наши биты в маску U+FFFF 1110[0010] 10[000100] 10[010110]
Полученное число запихиваем снова в calc 111000101000010010010110 и получаем E28496 hex, это и есть искомый код нашего символа в UTF-8.

получая таким образом список желаемых символов. Далее, при обработке текста, проверяем его символы с этим набором — если символ нашелся в этом массиве, значит он нам нужен. Если не попал, то — свободен (по-началу нужно будет проверить, все ли требуемые символы мы учли)

2. Второй вариант отличается от первого тем, что мы берем список нежелаемых символов и заносим их в аналогичный список, с которым сравниваем символы из наших страниц — если символ попал в этот список, значит он нам не нужен. Все не попавшие символы считаем хорошими.

Список символов нужно оформить в виде ассоциативного массива, где в качестве ключа выступает UTF-8 код, а в качестве значения true или false. В этом случае проверка очередного символа из текста будет почти мгновенной — просто проверить значение массива по ключу.

Answer 2 · 2013-04-23 17:28:21

Vampiro @Vampiro

а пробовали более простой метод, а-ля
iconv + preg_match('A-z|А-я|0-9|....')?

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2013-04-23 19:53:08

ru2.php.net/manual/en/reference.pcre.pattern.modifiers.php
u (PCRE_UTF8)
This modifier turns on additional functionality of PCRE that is incompatible with Perl. Pattern strings are treated as UTF-8. This modifier is available from PHP 4.1.0 or greater on Unix and from PHP 4.2.3 on win32. UTF-8 validity of the pattern is checked since PHP 4.3.5.

и ru2.php.net/manual/en/regexp.reference.unicode.php не то?

Определение кода юникод по символу (PHP)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт