Как правильно угадать кодировку символов в файле?

Question

Дмитрий @slo_nik

Как правильно угадать кодировку символов в файле?

Добрый день.
На сайте надо реализовать определение кодировки простого текстового файла.
Сейчас это реализовано простейшим способом.

$filecontent = file_get_contents($path . '/' . $this->filename);
 $c = mb_detect_encoding($filecontent, 'cp1251, UTF-8');
 if($c == 'Windows-1251'){
     $filecontent = iconv('Windows-1251', 'UTF-8', $filecontent);
}

Но если файл в другой кодировке, отличной от widnows-1251, то mb_detect_encoding() не всегда определяет точно, в какой именно кодировке файл.

Как в этом случае можно определить точно кодировку, чтобы привести её к UTF-8?
Например, файл может быть в windows-1252 или utf-16 или ещё какой либо.

Расчёт ведётся на пользователя, который ничего не знает о кодировках и не заморачивается настройкой кодировки в системе и блокноте. Он пишет текст в той кодировке какая есть, но на сайте, перед записью в базу, надо определить в какой именно и корректно показать модератору этот текст в текстовой области.

p.s. При таком решении, что я показал выше, если текст начинается с цифры, то остальной текст просто не выводится, если кодировка отлична от cp-1251.

Вопрос задан более трёх лет назад
4327 просмотров

3 комментария

Подписаться 1 Оценить 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Дмитрий @slo_nik Автор вопроса, куратор тега PHP

Значит получается следующее.
Если взять моё решение, то надо переписать на проверку unicode-признака? Если есть совпадения, то пытаться привести к utf-8, а если нет, то прогнать по очереди через все проверки и если нет ни одного совпадения, то как в этом случае?

Написано более трёх лет назад
Владимир Дубровин @z3apa3a

slo_nik: я думаю оптимальный вариант - по каждой из гипотез о кодировке пройтись по фрагменту текста и посчитать
- распознанные кириллические символы
- распознанные ASCII-символы
- остальные (не распознанные) символы - не ASCII и не кириллица
- количество признаков естественной капитализации (для различения Windows-1251 и koi8-r)
- ошибки декодирования (невозможная для данной кодировки последовательность байт)
и выбрать ту кодировку, которая не даст ошибок декодирования и "распознает" больше всего кириллических символов в процентном отношении к общему количеству символов.
Если результат плохой (нераспознанных символов больше чем кириллических по всем проверенным кодировкам) - вернуться к стандартному автодетекту.

Посчитать можно либо по тому алгоритму, что был в начальном ответе, либо просто перекодировать из проверяемой кодировки в какой-нибудь из Unicode (удобней всего в UTF-16, в нем легко считать ASCII и кириллические символы).

Написано более трёх лет назад
Дмитрий @slo_nik Автор вопроса, куратор тега PHP

Владимир Дубровин: Благодарю за развёрнутый ответ.
Из своего решения убрал mb_detect_encoding и проверку, что вернула mb_detect_encoding и стало лучше работать))) По крайней мере, если в начале предложения цифра - читается текст нормально, а не "кроказяблами", несмотря, что изначально кодировка cp1252. То, что mb_detect_encoding работает криво я понял из прочитанных статей и нескольких своих опытов.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 111 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 189 просмотров
3

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 468 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 155 просмотров
2

ответа
Кодировка символов

Простой
Почему нет кодировки ISO/IEC 8859-16 на компьютере?
- 1 подписчик
- 22 мая
- 85 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 346 просмотров
6

ответов
Показать ещё Загружается…

Так а язык текста вы тоже не знаете?
Определение кодировки - это вероятностный алгоритм. Могут быть файлы, на которых однозначно определить кодировку невозможно.
Владимир Дубровин: в основном русский, но, думаю, могут встречаться и вставки латиницы.

Answer 1 · 2016-08-05 16:12:37

Для кириллицы можно примерно такой алгоритм:

1. Задетектить UTF-16
обычно в начале текста присутствует Unicode-признак порядка U+FEFF, по нему можно отличить big endian / little endian.

Если признака нет, но в четных позициях текста (начиная с нуля) в основном символы с кодом 0x00 (для латиницы) и 0x04 (для кириллицы) - то это UTF-16 big endian, если в нечетных - little endian.

2. Задетектить UTF-8
все кириллические символы будут состоять из двух октетов, первый октет будет иметь значение 0xd0 или 0xd1, латиница будет совпадать с ASCII

3. Отличить Windows-1251 от KOI8-r - и там и там для кириллицы используют в основном символы с кодом 192-255, но в koi8-r сначала идут маленькие символы, в windows-1251 - сначала большие. Если текст преимущественно состоит из символов 192-223 но в начале предложения (после точки с пробелом) идут символы с кодом 224-255 - это ko8-r, если наоборот - windows-1251 + можно использовать частотный анализ символов. Латиница совпадает с ASCII.

Все остальные кодировки достаточно редки, правда китайцы (и почему-то Google) любят кодировать кириллицу в Big-5.

Как правильно угадать кодировку символов в файле?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт