Как исправить кодировку сайта в ответ на cURL запрос?

Question

Иван @9StarRu

PHP

Как исправить кодировку сайта в ответ на cURL запрос?

Пожалуйста, помогите победить кодировку.

Проблема следующая, в ответ на curl приходит сайт в котором в meta прописана кодировка windows-1251 из-за этого на сайте отображаются иероглифы.
Данную проблему решил с помощью:

$isWinCharset = mb_check_encoding($postResult, "windows-1251");
if ($isWinCharset) {
    $postResult = iconv("windows-1251", "UTF-8", $postResult);
}

Теперь если в meta стоит кодировка windows-1251 сайт отображается корректно.
Если в meta стоит кодировка utf-8 сайт отображается корректно.
Обрадовался.
Но вдруг нашел пару сайтов, которые слетели после добавления:

$isWinCharset = mb_check_encoding($postResult, "windows-1251");
if ($isWinCharset) {
    $postResult = iconv("windows-1251", "UTF-8", $postResult);
}

в meta указана кодировка UTF-8 а сайт в результате в иероглифах, пример такого сайта: e-qa.ru/autoprodazha
Таких сайтов не много но они есть и очень раздражают, большинство сайтов где в meta UTF-8 работают корректно. Видимо кодировка самого файла у данного сайта e-qa.ru/autoprodazha отличается от указанной в meta из-за этого происходит конфликт.

Помогите разобраться и устранить иероглифы на всех сайтах, кучу методов перепробовал и все взаимоисключающие :(

Вопрос задан более трёх лет назад
4740 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

20 комментариев

Иван @9StarRu Автор вопроса

Глупый вопрос, ваш фрагмент для python в php работать будет?

Вот мой код:

$ch = curl_init();
    $user_agent = $_SERVER["HTTP_USER_AGENT"];
    curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
    curl_setopt($ch, CURLOPT_URL, $engine_url );
    //"identity", "deflate" , "gzip"
    //curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

    $postResult = curl_exec($ch);

    curl_close($ch);

$isWinCharset = mb_check_encoding($postResult, "windows-1251");
if ($isWinCharset) {
    $postResult = iconv("windows-1251", "UTF-8", $postResult);
}
    echo $postResult;

Написано более трёх лет назад

Иван @9StarRu Автор вопроса

$header_size = curl_getinfo($h,CURLINFO_HEADER_SIZE);
$result['header'] = substr($response, 0, $header_size);
вставил в свой код, а

encoding='utf-8' # кодировка по умолчанию
tmp = r.headers.get('Content-Type').split('=') #режем по =, что справа - кодировка
if len(tmp)>1: #если кодировка в заголовке есть - будет 2 элемента
    encoding=tmp[-1] # тогда берём последний
page = r.content.decode(encoding)

не получилось.

Написано более трёх лет назад

PrAw @remzalp

9StarRu: полный ответ привёл. Языки всё же разные :)))
Возможно для https сайтов потребуются дополнительные curl_setopt опции

Написано более трёх лет назад
Иван @9StarRu Автор вопроса

PrAw: большое вам спасибо!

Написано более трёх лет назад

Иван @9StarRu Автор вопроса

Только сейчас смог проверить, в результате без изменений.
Выяснилось, что все сайты отдают Content-Type: text/html; charset=UTF-8 независимо от того, что написано в meta.
Вот, что у меня получилось, код:

<?php 
    $ch = curl_init();

    $user_agent = $_SERVER["HTTP_USER_AGENT"];
    curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
    curl_setopt($ch, CURLOPT_URL, $engine_url );

    //"identity", "deflate" , "gzip"
    //curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');

    curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

	curl_setopt($ch, CURLOPT_HEADER, 1);
	
    $tmpResult = curl_exec($ch);

    $header_size = curl_getinfo($ch,CURLINFO_HEADER_SIZE);

    curl_close($ch);

    $tmpHeaders = substr($tmpResult, 0, $header_size);
    $postResult = substr($tmpResult, $header_size);

    $headers = array();

    foreach(explode("\n",$tmpHeaders) as $header)
    {
      $tmp = explode(":",trim($header),2);
      if (count($tmp)>1)
      {
    $headers[strtolower($tmp[0])] = trim(strtolower($tmp[1]));
      }
    }

    $encoding="utf-8"; //default

    if (isset($headers['content-type']))
    {
      $tmp = explode("=", $headers['content-type']);
      if (count($tmp)>1) $encoding = $tmp[1];
    }
    if ($encoding != "utf-8") $postResult = iconv($encoding, "UTF-8", $postResult);

//$isWinCharset = mb_check_encoding($postResult, "windows-1251");
//if ($isWinCharset) {
//    $postResult = iconv("windows-1251", "UTF-8", $postResult);
//}
    echo $postResult;

?><?php 
header('HTTP/1.0 404 Not Found');
?>

У этого сайта кодировка в норме e-qa.ru/autoprodazha а те у которых в meta - windows-1251 все слетели в иероглифы, пример такого сайта goro.tibetastromed.ru

Т.е. получается, что получилось то, что было изначально, до применения этого кода:

$isWinCharset = mb_check_encoding($postResult, "windows-1251");
if ($isWinCharset) {
    $postResult = iconv("windows-1251", "UTF-8", $postResult);
}

Жесть. Как решить не понятно, в самом деле недели две-три над этим бьюсь :(

Написано более трёх лет назад

Иван @9StarRu Автор вопроса
Может проще отлавливать в коде строку
<meta http-equiv="Content-Type" content="text/html; charset=windows-1251" >
и менять ее на ?

Ведь если закомментировать код:
//$isWinCharset = mb_check_encoding($postResult, "windows-1251"); //if ($isWinCharset) { // $postResult = iconv("windows-1251", "UTF-8", $postResult); //}

то проблема остается только с сайтами, где в meta установлена кодировка windows-1251, остальные сайты работают корректно.
Написано более трёх лет назад
Иван @9StarRu Автор вопроса
Перефразирую :)
Как исправить кодировку если в meta получаемого сайта установлено windows-1251 и не испортить кодировку utf-8 сайтов?

P.S. код ниже не подойдет

//$isWinCharset = mb_check_encoding($postResult, "windows-1251"); //if ($isWinCharset) { // $postResult = iconv("windows-1251", "UTF-8", $postResult); //}
Написано более трёх лет назад
PrAw @remzalp

9StarRu: я вообще задачу не понимаю.
У тебя есть качалка страниц сайтов. Что с ними дальше в цепочке обработки должно происходить?

Написано более трёх лет назад
Иван @9StarRu Автор вопроса

Сейчас я загружаю сайт (html) на своем домене,
т.е. полностью код стороннего сайта получаю и вывожу у себя,
на этом шаге и получаю ошибку кодировки. Дальше пока не двигался.
Сейчас ищу регулярку, чтобы на лету изменять windows-1251 на utf-8, хочу попробовать, может поможет.

Написано более трёх лет назад
PrAw @remzalp

9StarRu: моё нормальное понимание - эти сайты парсятся и из них вытаскивается какой-то текстовый фрагмент информации, который складывается в общую БД. В этом случае самый адекватный вариант - приводить всё к уникоду. Это и попытался реализовать, за исключением случая, когда заголовки сервера и контент страницы с мета-тэгами противоречат друг другу.

Если скачанная страница должна открываться в браузере - то как вариант - вообще не трогать кодировку или приводить всё к уникоду, но удалять мета тэг с кодировкой.

Написано более трёх лет назад
Иван @9StarRu Автор вопроса
PrAw: То есть проще и правильнее удалить мета тег чем заменять его на нужный, так?

Еще хотел спросить, бывает, что в ответ страница не приходит или приходит страница 404 ошибки но в браузере ответ 200 ок.
Сейчас я в конце php добавил
?><?php header('HTTP/1.0 404 Not Found'); ?>

Если страница есть то ответ 200, нет страницы получаю 404, но у меня не правильно реализовано и появляются ошибки о двух headers, как это прописать в мой код, чтобы было верно?

Спасибо!
Написано более трёх лет назад
Иван @9StarRu Автор вопроса

Странно но удаление мета вообще и изменение мета на utf-8 проблему не решило :(

Написано более трёх лет назад
PrAw @remzalp

9StarRu: по сути получается или прокси или зеркало.
Если прокси - ничего не трогать, отдавать заголовок с той же encoding, с какой дал исходный сервер, дальше браузер сам разберется.

Если зеркало, то файлы должны храниться локально на сервере и сервер уже будет отдавать со своей кодировкой, которая скорей всего уникод.

Может имеет смысл посмотреть более внимательно? Собрать табличку вида:
Есть урл. Файлы отдаются с заголовком кодировки таким, в тексте страницы кодировка такая. При просмотре в браузере красиво/иероглифы. При этом браузер показывает с кодировкой такой. При переключении кодировки на такую получается красиво.

А сейчас мы камешки в темноту кидаем

Написано более трёх лет назад
PrAw @remzalp

9StarRu: почта есть в профиле, пиши, разберемся

Написано более трёх лет назад

Иван @9StarRu Автор вопроса

PrAw: сегодня кеш прикручивал, все эти страницы с иероглифами сохраняются в кеш в ANSI Windows-1251 кодировке, файл на сервере читаемый а при выводе на сайт иероглифы, при этом мета в файле я заменяю на utf-8.
Я таким образом хотел решить проблему отображения иероглифов на сайте, думал сперва в кеш сохраню а потом выведу на сайт :)
Может нужно как-то кодировку обозначить во время сохранения в кеш?

<?php
/* Установка кодироок в UTF-8 */
mb_internal_encoding("UTF-8");  // установим внутреннюю кодировку скрипта
mb_http_output( "UTF-8" );  // устанавливаем кодировку для http-вывода

//settings
$cache_ext  = '.html'; //file extension
$cache_time     = 1800;  //Cache file expires after these seconds (1 hour = 3600 sec) (8 hour = 28800 sec) (12 hour = 43200 sec)
$cache_folder   = 'cache/'; //folder to store Cache files
$ignore_pages   = array('', '');

$dynamic_url    = 'http://'.$_SERVER['HTTP_HOST'] . $_SERVER['REQUEST_URI'] . $_SERVER['QUERY_STRING']; // requested dynamic page (full url)
$cache_file     = $cache_folder.md5($dynamic_url).$cache_ext; // construct a cache file
$ignore = (in_array($dynamic_url,$ignore_pages))?true:false; //check if url is in ignore list

if (!$ignore && file_exists($cache_file) && time() - $cache_time < filemtime($cache_file)) { //check Cache exist and it's not expired.
ob_start('ob_gzhandler'); //Turn on output buffering, "ob_gzhandler" for the compressed page with gzip.
readfile($cache_file); //read Cache file
echo '<!-- cached page - '.date('l jS \of F Y h:i:s A', filemtime($cache_file)).', Page : '.$dynamic_url.' -->';
ob_end_flush(); //Flush and turn off output buffering
exit(); //no need to proceed further, exit the flow.
}
//Turn on output buffering with gzip compression.
ob_start('ob_gzhandler');


$_SERVER['post_cache'] = $post;

if (!is_dir($cache_folder)) { //create a new folder if we need to
mkdir($cache_folder);
}
if(!$ignore){
$fp = fopen($cache_file, 'w');  //open file for writing
fwrite($fp, ob_get_contents()); //write contents of the output buffer in Cache file
fclose($fp); //Close file pointer
}
ob_end_flush(); //Flush and turn off output buffering

?>

Написано более трёх лет назад

PrAw @remzalp

9StarRu: тема анализа кодировки не раскрыта.
По хорошему - сохранять со всеми заголовками и отдавать эти заголовки в ответе, не трогая кодировку вообще никак.

Написано более трёх лет назад
Иван @9StarRu Автор вопроса

PrAw: я вам на почту позже напишу с примерами.

Написано более трёх лет назад
Иван @9StarRu Автор вопроса

Отправил письмо.

Написано более трёх лет назад
Иван @9StarRu Автор вопроса

Вчера на фрилансе заказал скрипт, сделали, у фрилансера на обычном хостинге все сайты работают, у меня иероглифы либо пустая страница 1fastmoney.ru/1.txt у меня centos6 vps

Написано более трёх лет назад
PrAw @remzalp

9StarRu: диагноз простой - пока не понимаете, в чем дело в цепочке:
удаленный сервер - кодировка в заголовке
удаленная страница - кодировка в тексте
локальный сервер - промежуточные преобразования
локальный сервер - отдаваемая кодировка в заголовке
локальный сервер - реальная кодировка текста страницы
локальный браузер - выставляемая кодировка текста
кто-то косячит.

Удачи - потратить еще денег на тыкание пальцев в потолок.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 111 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 469 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 158 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 346 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2017-08-14 10:46:52

Собственно Вам удаленный сайт уже и так всё говорит, почему бы не учесть то, что он говорит?

1. Заглядываем в заголовки HTTP ответа, видим:
Content-Type:text/html; charset=UTF-8
2. Заглядываем в контент страницы, видим:
<meta charset="UTF-8" />
3. Есть еще один метод подсказать кодировку:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

Решение - смотрим, чего нам говорят, подставляем в качестве параметра для iconv, но не забываем дефолтное значение на всякий случай.
Вариант решения - если сайтов в ограниченное количество, храните где-то предпочитаемую кодировку.
Фрагмент на python, реализующий автоматическое декодирование на основании заголовка ответа:

encoding='utf-8' # кодировка по умолчанию
tmp = r.headers.get('Content-Type').split('=') #режем по =, что справа - кодировка
if len(tmp)>1: #если кодировка в заголовке есть - будет 2 элемента
    encoding=tmp[-1] # тогда берём последний
page = r.content.decode(encoding)

Итоговый ответ:

<?php
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $engine_url );
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
....
//дополнить этим:
curl_setopt($ch, CURLOPT_HEADER, 1);

$tmpResult = curl_exec($ch);

$header_size = curl_getinfo($ch,CURLINFO_HEADER_SIZE);
curl_close($ch);

$tmpHeaders = substr($tmpResult, 0, $header_size);
$postResult = substr($tmpResult, $header_size);

$headers = array();
foreach(explode("\n",$tmpHeaders) as $header)
{
	$tmp = explode(":",trim($header),2);
	if (count($tmp)>1)
	{
		$headers[strtolower($tmp[0])] = trim(strtolower($tmp[1]));
	}
}

$encoding="utf-8"; //default
if (isset($headers['content-type']))
{
	$tmp = explode("=", $headers['content-type']);
	if (count($tmp)>1) $encoding = $tmp[1];
}
if ($encoding != "utf-8") $postResult = iconv($encoding, "UTF-8", $postResult);

Всё. Получаем расширенный ответ, который содержит заголовки. Вырезаем из него заголовки и режем их в массив, плюс достаём тело ответа.
Парсим заголовки http, вытаскиваем content-type и из него вытаскиваем кодировку

Как исправить кодировку сайта в ответ на cURL запрос?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт