Проблема с кодировкой в Simple HTML DOM Parser?

Question

Adel1ne @Adel1ne

Проблема с кодировкой в Simple HTML DOM Parser?

Здравствуйте!

Столкнулся с проблемой кодировки при использовании PHP Simple HTML DOM Parser.
Вытаскивают html-текст из абзацев при помощи функции innertext(). В тексте могут быть тэги,
например текст1 или вообще ссылка куда-то

Ну а теперь к сути, вот код:

foreach ($html->find('div[class="text"] p') as $text) {
$fulltext .= iconv("Windows-1251", "UTF-8", $text->innertext());
}

Помимо этого на странице много чего еще вытаскивается через plaintext.

Проблема в следующем:
Страница, которую я парсю, имеет кодировку Windows-1251, мой код (index.php) и сам
simple_html_dom.php в кодировке UTF-8.То, что вытаскивается через plaintext, отображается нормально, а вот innertext() похоже вытаскивает информацию в кодировке страницы, то есть, в моем случае - Windows-1251.
ОК, делаем конвертацию с помощью iconv и, по идее, все должно быть отлично. Большая часть текста отображается корректно в кодировке UTF-8, однако засада в том, что текст, заключенный в тэги почему то отображается кракозябрами. То ли на него не срабатывает iconv, то ли еще что, но как победить эту штуку, я не понял. Причем если сделать кодировку своей страницы в Windows-1251, это все равно не поможет.

Есть идеи?

Вопрос задан более трёх лет назад
5265 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Решения вопроса 1

3 комментария

Adel1ne @Adel1ne Автор вопроса

Не подскажите, как это сделать?

Написано более трёх лет назад

Vit @fornit1917

Adel1ne:

$str = file_get_contents('http://.....');
$str = iconv(....);
$html = str_get_html($str);

Написано более трёх лет назад

Adel1ne @Adel1ne Автор вопроса

Vit: Большое спасибо.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 22 часа назад
- 112 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- вчера
- 134 просмотра
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 131 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 110 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 116 просмотров
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 258 просмотров
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 266 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 188 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 234 просмотра
1

ответ
Веб-разработка

+1 ещё

Простой
Как включить ai ассистента в dev-tools в рф?
- 1 подписчик
- 25 нояб.
- 258 просмотров
0

ответов
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Разработчик PHP (junior / стажер) - Laravel

CRM для НКО Мост данных

от 30 000 до 110 000 ₽

Answer 1 · 2015-04-07 13:26:36

Поместите весь контент html-страницы в строковую переменную, сконвертируйте в нужную кодировку (UTF-8) и только потом уже скармливайте ее в simple html dom parser. Я именно так всегда и делал и никогда не испытывал никаких проблем.

Answer 2 · 2015-04-07 22:36:41

Adel1ne @Adel1ne Автор вопроса

Vit Vit , Поместите весь контент html-страницы в строковую переменную

Не подскажете, как это сделать?

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2016-10-10 17:23:34

Евгений @Jekshmek

кодер штродер

$d= mb_convert_encoding($d, 'utf-8', mb_detect_encoding($d));

Ответ написан более трёх лет назад

Комментировать

Проблема с кодировкой в Simple HTML DOM Parser?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт