PHP Simple HTML DOM и кириллица несовместимы?

Question

Александр Цымбал @AlexanderTsymbal

tsymbal.su

PHP Simple HTML DOM и кириллица несовместимы?

Добрый вечер, коллеги. Помогите!

С недавних пор на одном из сайтов (на злосчастном nic.ru), где используется класс Simple HTML DOM перестала парситься кириллица. Хотя раньше всё было ок. Я понимаю, что что-то могло поменяться в настройках сервера, но сейчас речь не об этом.

Есть кусок html-кода, который "кушает" Simple HTML DOM, и если в нём присутствует кириллица, то парсинг обрывается на первом же теге, в котором она найдена.

Пример банальный:

$gt_text_volume = "<p>latin</p><p>кириллица</p><h3>latin 3</h3>";//собственно, кусок кода
//...(подключили Simple HTML DOM)
$html = str_get_html($gt_text_volume);//загоняем его в парсер
$tags = $html->find('*');//ищем все теги
foreach ($tags as $key => $tag) {//перебираем их
  echo "\r\n".$tag->innertext;//пытаемся вывести содержимое
}

Результат получаем следующий:

latin
кириллица

Т.е., парсер дошёл до второго тега с кириллицей, и на нём оборвался перебор.

Если я заменю исходный кусок кода на нижеследующий (т.е. удалю из него всю кириллицу)

$gt_text_volume = "<p>latin</p><p>latin 2</p><h3>latin 3</h3>";

То результат корректный. Выводится следующее:

latin 
latin 2 
latin 3

Файл в UTF-8, сайт работает в UTF-8.

Может, кто сталкивался? Я обгуглил весь интернет (так мне кажется), нашёл вопросы с такой же проблемой. Но ответов нет. ПОМОГИТЕ! Слёзно прошу!

UPD: Решение найдено. Для корректной работы нужно убедиться что mbstring.func_overload = 0.

Вопрос задан более трёх лет назад
264 просмотра

7 комментариев

Подписаться 1 Средний 7 комментариев

Rsa97 @Rsa97

У меня никаких проблем с вашим кодом нет, находит все три тэга.
PHP 7.2.24
Simple HTML DOM Parser 1.9.1

Написано более трёх лет назад
Илья @New_Horizons

Сайт не на битриксе случайно?

Что выдаёт этот код?

var_dump(ini_get('mbstring.func_overload'));

Написано более трёх лет назад
Александр Цымбал @AlexanderTsymbal Автор вопроса

Илья, вы совершенно правы. Сегодня докопался до истины.
У меня сайт на битриксе, и в настройках модуля mbstring значение func_overload = 2.
А для корректной работы Simple HTML DOM нужно значение 0.
Вот и вся беда.

Написано более трёх лет назад
Александр Цымбал @AlexanderTsymbal Автор вопроса

Rsa97, да, как оказалось, всё зависит от значения параметра mbstring.func_overload. Читайте ниже!
Спасибо за участие!

Написано более трёх лет назад
Александр Цымбал @AlexanderTsymbal Автор вопроса

Илья, теперь бы еще понять, как обойти жёсткую фиксацию значения mbstring.func_overload, которое на хостинге nic.ru можно задать только в панели хостинга и для всего сайта разом. Раньше можно было переопределять в локальных .htaccess, а с недавнего времени (с момента, как всё поломалось), видимо, нельзя.
По крайней мере, ни установка параметра в локальном .htaccess, ни установка ini_set(...) не помогают :(
Будем искать решение!
Спасибо вам!

Написано более трёх лет назад
Илья @New_Horizons

Александр Цымбал, Разберётесь, дайте знать) мы не разобрались) пришлось отказаться от неё в пользу DOMDocument.

Написано более трёх лет назад
Александр Цымбал @AlexanderTsymbal Автор вопроса

Илья, Илья, я разобрался. Я уже выше подробно описал причину. Вторая часть моей проблемы состояла в том, что на nic.ru с недавнего времени настройки mbstring задаются глобально для всего сервера. Пообщавшись с техподдержкой, узнал, что можно выключить "Автоматический" режим работы сайтов (на nic.ru есть такая настройка), и потом можно задавать локальные параметры через .htaccess.
Собственно, это всё поставило на свои места. DOMDocument недостаточно гибок и, в моём случае, не справился с необходимыми задачами. По скорости, очевидно, он выигрывает у Simple HTML DOM. В моей ситуации скорость совсем не важна.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 3 подписчика
- 14 нояб.
- 327 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 221 просмотр
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 187 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 310 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 283 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 322 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 375 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 304 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 292 просмотра
4

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

У меня никаких проблем с вашим кодом нет, находит все три тэга.
PHP 7.2.24
Simple HTML DOM Parser 1.9.1
Сайт не на битриксе случайно?

Что выдаёт этот код?

var_dump(ini_get('mbstring.func_overload'));
Илья, вы совершенно правы. Сегодня докопался до истины.
У меня сайт на битриксе, и в настройках модуля mbstring значение func_overload = 2.
А для корректной работы Simple HTML DOM нужно значение 0.
Вот и вся беда.
Rsa97, да, как оказалось, всё зависит от значения параметра mbstring.func_overload. Читайте ниже!
Спасибо за участие!
Илья, теперь бы еще понять, как обойти жёсткую фиксацию значения mbstring.func_overload, которое на хостинге nic.ru можно задать только в панели хостинга и для всего сайта разом. Раньше можно было переопределять в локальных .htaccess, а с недавнего времени (с момента, как всё поломалось), видимо, нельзя.
По крайней мере, ни установка параметра в локальном .htaccess, ни установка ini_set(...) не помогают :(
Будем искать решение!
Спасибо вам!
Александр Цымбал, Разберётесь, дайте знать) мы не разобрались) пришлось отказаться от неё в пользу DOMDocument.
Илья, Илья, я разобрался. Я уже выше подробно описал причину. Вторая часть моей проблемы состояла в том, что на nic.ru с недавнего времени настройки mbstring задаются глобально для всего сервера. Пообщавшись с техподдержкой, узнал, что можно выключить "Автоматический" режим работы сайтов (на nic.ru есть такая настройка), и потом можно задавать локальные параметры через .htaccess.
Собственно, это всё поставило на свои места. DOMDocument недостаточно гибок и, в моём случае, не справился с необходимыми задачами. По скорости, очевидно, он выигрывает у Simple HTML DOM. В моей ситуации скорость совсем не важна.

Answer 1 · 2020-10-07 21:03:06

В начале вашего PHP файла разместите:

<?php

// Устанавливаем тип документа и его кодировку:
header('Content-Type: text/html; charset=utf-8');

// Включаем показ ошибок:

ini_set('error_reporting', E_ALL);
ini_set('display_errors', 1);
ini_set('display_startup_errors', 1);

// Далее ваш код

И повторите попытку. Если будут ошибки, текст ошибок сюда.

PHP Simple HTML DOM и кириллица несовместимы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт