PHP 8.3 --> универсальная конвертация из любой кодировки в читаемый русский текст — КАК?

Question

Иван Волков @oOLokiOo

PHP Developer

PHP
Iconv

PHP 8.3 --> универсальная конвертация из любой кодировки в читаемый русский текст — КАК?

$page = '';
$page_utf8 = '';
$page = file_get_contents('https://%sitename%.by/...');

$page_utf8 = iconv(mb_detect_encoding($page, mb_detect_order(), true), "UTF-8", $page);
// Notice: iconv(): Detected an illegal character in input string in ...

echo mb_convert_encoding($page, 'UTF-8', 'auto');
// ??}k?#?u?_?P??9???;??u#?-xeĆ ??"?;M6?ݜ?E@?a?A?^?C???$?~?7Y??RlK@~??ztWU_3??Y?h??f=N?9u?S?NU=??????{? ...

echo mb_detect_encoding($page);
// UTF-8

echo $page;
// F-8��}k�#�u�_�P��9���;��u#�-xeĆ ��"�;M6�ݜ�E@�a�A�^�C���$�~�7Y��RlK@~��ztWU_3��Y�h��f=N�9u�S�NU=������{? ...

В коде той страницы ЯВНО указано - < meta http-equiv="Content-type" content="text/html; charset=utf-8" >
в своём Sublime я ЯВНО делаю - Save with encoding > UTF-8.

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title></title>
</head>
<body style="margin: 25px;">
   <?php /* тут PHP код выше */ ?>
</body>
</html>

Что не так?

Вопрос задан 31 янв.
241 просмотр

8 комментариев

Подписаться 1 Простой 8 комментариев

maksam07 @maksam07
$page = file_get_contents('https://example.by/...'); echo bin2hex(substr($page, 0, 3));

Если выводит "1f8b08" — это точно gzip, его нужно "распаковать", а не менять кодировку.
Написано 31 янв.
AUser0 @AUser0

Стоит использовать gzdecode() на выкачанной $page, однако.

Написано 31 янв.
Иван Волков @oOLokiOo Автор вопроса

век живи - век учись...
и вправду - gzdecode() помог!)
с детства писал на PHP - ни разу не юзал его)) и не мог подумать даже, что file_get_contents может zip вернуть...

Спасибо Большое ребята!!

Написано 31 янв.
alexalexes @alexalexes

Если еще анализировать http_get_last_response_headers(), то вопросы отпадут, что за контент передает сервер.

< meta http-equiv="Content-type" content="text/html; charset=utf-8" >

html тег с указанием кодировки будет работать, если страница автономная - открыта из локального файла. А так, даже браузеры полагаются только на http заголовки ответа.

Написано 31 янв.
Михаил Ливач @Mausglov

alexalexes , поддерживаю: смотреть надо заголовки ответа.
Иван Волков , заголовки можно смотреть в DevTools на вкладке Network. Ткните в любой запрос, там всё должно быть понятно

Написано 01 февр.
Владимир @v__V__v

Михаил Ливач, строго говоря, их можно и непосредственно в php получать и обрабатывать

Написано 05 февр.
Михаил Ливач @Mausglov

Владимир, можно, конечно. Но когда нужно соорудить какое-то взаимодействие с вебсайтом, я сначала смотрю в браузере. Привычка.

Написано 07 февр.
Владимир @v__V__v

Михаил Ливач, да, согласен, часто так бывает гораздо удобнее. Просто тут речь изначально шла о php, так что посмотреть заголовки, а потом написать обработку, можно прямо в скрипте.

Написано 07 февр.

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 110 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 468 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 194 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 155 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2473 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 346 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

$page = file_get_contents('https://example.by/...'); echo bin2hex(substr($page, 0, 3));

Если выводит "1f8b08" — это точно gzip, его нужно "распаковать", а не менять кодировку.
Стоит использовать gzdecode() на выкачанной $page, однако.
век живи - век учись...
и вправду - gzdecode() помог!)
с детства писал на PHP - ни разу не юзал его)) и не мог подумать даже, что file_get_contents может zip вернуть...

Спасибо Большое ребята!!
Если еще анализировать http_get_last_response_headers(), то вопросы отпадут, что за контент передает сервер.

< meta http-equiv="Content-type" content="text/html; charset=utf-8" >

html тег с указанием кодировки будет работать, если страница автономная - открыта из локального файла. А так, даже браузеры полагаются только на http заголовки ответа.
alexalexes , поддерживаю: смотреть надо заголовки ответа.
Иван Волков , заголовки можно смотреть в DevTools на вкладке Network. Ткните в любой запрос, там всё должно быть понятно
Михаил Ливач, строго говоря, их можно и непосредственно в php получать и обрабатывать
Владимир, можно, конечно. Но когда нужно соорудить какое-то взаимодействие с вебсайтом, я сначала смотрю в браузере. Привычка.
Михаил Ливач, да, согласен, часто так бывает гораздо удобнее. Просто тут речь изначально шла о php, так что посмотреть заголовки, а потом написать обработку, можно прямо в скрипте.

Answer 1 · 2026-03-19 14:38:51

Проблема в том, что функция mb_detect_encoding() ошибается. Для строки с битыми символами она возвращает UTF-8, хотя на самом деле исходная кодировка страницы - Windows-1251 (очень распространенная для сайтов с доменом .by).

mb_detect_encoding() не идеален, пытается угадать кодировку по статистическим закономерностям. Для коротких строк или строк с большим количеством бинарных символов он часто ошибается и возвращает UTF-8, даже если это не так.

попробуй это

<?php
$url = 'https://%sitename%.by/...';
$page = file_get_contents($url);

if ($page === false) {
    die('Ошибка загрузки страницы.');
}

// Способ 1: Самый надежный — принудительно указать ожидаемую кодировку
// Так как сайт белорусский, велика вероятность Windows-1251
$page_utf8_fixed = iconv('Windows-1251', 'UTF-8//IGNORE', $page);
// Флаг //IGNORE отбрасывает символы, которые невозможно конвертировать, чтобы избежать Notice

echo $page_utf8_fixed;

// Способ 2: Попытка автоопределения с перебором самых частых кодировок
$encodings = ['UTF-8', 'Windows-1251', 'KOI8-R', 'ISO-8859-5'];
$detected_encoding = mb_detect_encoding($page, $encodings, true);

if ($detected_encoding && $detected_encoding !== 'UTF-8') {
    $page_utf8_auto = mb_convert_encoding($page, 'UTF-8', $detected_encoding);
    echo $page_utf8_auto;
} else {
    // Если не удалось определить или это уже UTF-8, но выглядит как кракозябры
    echo "Не удалось определить кодировку или кодировка определена неверно.";
}

// Способ 3: Анализ через заголовки HTTP (если сервер их отдает)
$context = stream_context_create(['http' => ['ignore_errors' => true]]);
$headers = get_headers($url, 1, $context);
if (isset($headers['Content-Type']) && strpos($headers['Content-Type'], 'charset=') !== false) {
    preg_match('/charset=([a-zA-Z0-9\-]+)/', $headers['Content-Type'], $matches);
    if (!empty($matches[1])) {
        $header_charset = strtoupper($matches[1]);
        $page_from_header = mb_convert_encoding($page, 'UTF-8', $header_charset);
        echo $page_from_header;
    }
}
?>

PHP 8.3 --> универсальная конвертация из любой кодировки в читаемый русский текст — КАК?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт