Как изменить часть текста в другой кодировке на php?

Question

Алексей Крупский @Snickersmix

Web-разработчик

Как изменить часть текста в другой кодировке на php?

Есть некоторый текст с немного поехавшей кодировкой. Часть строки в utf-8, другая в windows-1251.

Собственно вопрос, как выровнять кодировку всего текста в utf-8?

Решение:

function mbe_detect_encoding($string, $enc = null)
{

    static $list = array('utf-8', 'windows-1251');

    foreach ($list as $item) {
        $sample = @iconv($item, $item, $string);
        if (md5($sample) == md5($string)) {
            if ($enc == $item) {
                return true;
            } else {
                return $item;
            }
        }
    }
    return null;
}

$text = preg_split('!([ ,<>="\':])!ism', $text, -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
foreach ($text as $key => $c) {
    if (mbe_detect_encoding($c) == 'windows-1251')
        $text[$key] = iconv('WINDOWS-1251', 'utf-8', $c);
}
$text = implode('', $text);

Вопрос задан более трёх лет назад
3012 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

7 комментариев

Алексей Крупский @Snickersmix Автор вопроса

было бы прекрасно если бы можно было его поделить с маху. тут получается так, что внутри windows-1251 текста есть кусок в utf-8 а то и 2 таких островка в море текста. нужно отделить сливки от молока, обработать и вставить на место.
Либо какой то другой универсальный способ выровнять сразу весь текст

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

@Snickersmix можно попробовать как выше предложил @AloneCoder с разбиением текста по словам, но по моему опыту mb_detect_encoding работает хреново :(

Написано более трёх лет назад
Алексей Крупский @Snickersmix Автор вопроса

@DmitriyEntelis вот с этим я сейчас и столкнулся. разбить то я разбил слова, но он их не различает как разные кодировки, для него что какозябры, что текст, всё windows-1251

Написано более трёх лет назад
Макс @AloneCoder

@DmitriyEntelis вообще задача определения кодировки достаточно сложна, работает это по принципу поиска каких-либо определенных последовательностей символов или байтов насколько я знаю

Написано более трёх лет назад
Дмитрий Энтелис @DmitriyEntelis

@AloneCoder Да, это именно так и есть. В целом можно сказать что задача автора нормально не решается к сожалению

Написано более трёх лет назад
Макс @AloneCoder

Еще можно переводить из utf в utf и сравнивать исходное и конечное, если отличается, значит это 1251

Написано более трёх лет назад
Алексей Крупский @Snickersmix Автор вопроса

@AloneCoder так и сделал кстати, решение нашел, как дополнить вопрос?

Написано более трёх лет назад