Почему DOMDocument в php не воспринимает русскую кодировку?

Question

Дмитрий Евграфович @Tantacula

PHP

Почему DOMDocument в php не воспринимает русскую кодировку?

Пишу парсер по вакансиям и столкнулся с проблемой: не могу получить нормальное содержимое toster.ru - кодировка портится где-то в DOMDocument. Ниже функция (вместо $linktocontent url тостера).

function parse($linktocontent) {

	$Contents = file_get_contents($linktocontent);
	if (!$Contents) {
		$result['error'] = "Can't get file";
		return $result;
	}

	$Selector = ".//*[@id='tasks_list']/div[1]/div";
	$dom = new DOMDocument;
	libxml_use_internal_errors(true);
	$dom->loadHtml($Contents);
	$xpath = new DOMXPath($dom);
	libxml_use_internal_errors(false);
	$list = $xpath->query($Selector);
	$numitems = $list->length;

	for ($i=0; $i<$numitems; $i++) {
		$j = $i+1;

		$SelectArticle = ".//*[@id='tasks_list']/div[1]/div[".$j."]";
		$SelectLink = ".//*[@id='tasks_list']/div[1]/div[".$j."]/div[@class='title']/a";
	 	$SelectSDesc = ".//*[@id='tasks_list']/div[1]/div[".$j."]/div[@class='description']";

        $result[$i]['header']    = $xpath->query($SelectLink)->item(0)->nodeValue;
        $result[$i]['shortdesc'] = $xpath->query($SelectSDesc)->item(0)->nodeValue;
        $result[$i]['link']      = "http://freelansim.ru".$xpath->query($SelectLink)->item(0)->attributes->getNamedItem("href")->nodeValue;
	}
    return $result;
 }

И то, что на выходе получается:

[0]=> array(6) { ["header"]=> string(69) "ÐÐ¾ÑÐ°Ð±Ð¾ÑÐ°ÑÑ PHP ÑÐºÑÐ¸Ð¿Ñ" ["shortdesc"]=> string(806) "ÐÑÑÑ php ÑÐºÑÐ¸Ð¿Ñ Ð¿Ð°ÑÑÐµÑÐ°, ÑÐ°Ð±Ð¾ÑÐ°Ð²ÑÐ¸Ð¹ ÑÐ°Ð½ÐµÐµ Ñ ÑÐ°Ð¹ÑÐ¾Ð¼, Ð½Ð¾ Ð¸Ð· Ð·Ð° Ð¸Ð·Ð¼ÐµÐ½ÐµÐ½Ð¸Ð¹ Ð´Ð¸Ð·Ð°Ð¹Ð½Ð°, Ð¿ÐµÑÐµÑÑÐ°Ð²ÑÐ¸Ð¹ ÑÐ°Ð±Ð¾ÑÐ°ÑÑ, Ð½ÐµÐ¾Ð±ÑÐ¾Ð´Ð¸Ð¼Ð¾ Ð¸ÑÐ¿ÑÐ°Ð²Ð¸ÑÑ ÑÐºÑÐ¸Ð¿Ñ (Ð»Ð¸Ð±Ð¾ Ð½Ð°Ð¿Ð¸ÑÐ°ÑÑ Ð½Ð¾Ð²ÑÐ¹), ÑÐ°Ðº, ÑÑÐ¾Ð±Ñ Ð²ÑÐµ ÑÐ°Ð±Ð¾ÑÐ°Ð»Ð¾, Ð¿Ð»ÑÑ Ð´Ð¾Ð¿Ð¸ÑÐ°ÑÑ Ð¿Ð°ÑÑ Ð½ÐµÑÐ»Ð¾Ð¶Ð½ÑÑ ÑÑÐ½ÐºÑÐ¸Ð¹ (Ð¿Ð¾Ð´ÑÐ¾Ð±Ð½Ð¾ÑÑÐ¸ Ð² Ð»Ð¸ÑÐºÑ)" ["link"]=> string(32) "http://freelansim.ru/tasks/49586" ["timestamp"]=> string(0) "" ["cost"]=> string(53) "5 000 ÑÑÐ±./Ð·Ð° Ð¿ÑÐ¾ÐµÐºÑ" ["number"]=> string(5) "49586" }

На fl.ru с этой функцией проблем не возникает. Есть ли решение для этого случая? Сам вожусь уже полдня и ни чему не пришел

Вопрос задан более трёх лет назад
5754 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

Комментировать

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 185 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 415 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 237 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 185 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 152 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2451 просмотр
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 318 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 179 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 248 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 281 просмотр
3

ответа
Показать ещё Загружается…

Answer 1 · 2016-12-24 15:22:48

Данная строка не решит проблемы :$doc = new DOMDocument('1.0' 'utf-8');

Решается двумя способами:
1. Указание в тексте, который парсится нужной кодировки, скажем
'< meta http-equiv="Content-Type" content="text/html; charset=utf-8" >'

2. Либо сконвертировать все символы документа в HTML-entities перед импортом
$source = mb_convert_encoding($source, 'HTML-ENTITIES', 'utf-8');
$dom->loadHTML($source);

Answer 2 · 2014-01-15 17:36:16

Решил проблему добавив символ BOM в начало скачанной страницы. На всякий случай - кодировка utf-8 в httpd и htaccess задана, посему проблема остается невыявленной.

Answer 3 · 2014-01-15 15:54:31

Mikhail Osher @miraage

Старый прогер

Насколько я помню, то по дефолту идет кодировка ISO.

Попробуйте так:

$doc = new DOMDocument('1.0' 'utf-8');

Ответ написан более трёх лет назад

2 комментария

Answer 4 · 2019-03-14 04:27:11

Я решил вопрос конвертацией уже полученных данных через mb_convert_encoding($str, 'iso-8859-1', 'UTF-8');

$doc = new DOMDocument('1.0' 'utf-8'); - действительно не помогает (пробовал до того, как нашёл этот пост).

Но мой вариант скорее всего грузит скрипт, т.к. при больших объёмах перекодировать большие тексты всяко дольше, чем изначально загружать их в правильной кодировке.
Поэтому вопрос остаётся открытым. Может действительно добавлять BOM в начало документа. Надо попробовать.

Answer 5 · 2024-11-05 11:09:23

Действительно, проблема решается добавлением в начало исходного html-кода BOM-метки.

$html = "<div>.........ваш html-код.............</div>";
$BOM = "\xEF\xBB\xBF"; // UTF-8 BOM
$html = $BOM.$html;

$dom = new DOMDocument();
...

Почему DOMDocument в php не воспринимает русскую кодировку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт