PHP DomDocument: откуда берутся лишние узлы?

Question

Shimpanze @Shimpanze

PHP

PHP DomDocument: откуда берутся лишние узлы?

Здравствуйте!

Написал код, который обрабатывает текстовые ноды (оборачивает их в тег параграфа):

<?php

$content = <<<'EOD'
<div>
Hello 1


Hello 2
<span>Hello 3</span>



Привет 4  
</div>
EOD;

$content = mb_convert_encoding( $content, 'HTML-ENTITIES', 'UTF-8' );

$dom = new DomDocument();

$dom->loadHTML( $content );

$xpath = new DomXPath( $dom );

$elements = $xpath->query( '//body/div/*|//body/div/text()' );

foreach( $elements as $element ) {

  // обрабатываем текстовые узлы
  if( $element->nodeName == '#text' ) {

    // Заменяем множество пустых строк на одну
    $text_strings = preg_replace( "/(^[\\s]*$)+/miu", "", $element->c14n() );

    // делим текстовую ноду на строки и обрабатываем их
    $text_strings = preg_split( "/\\r?\\n/", $text_strings, -1 );
    foreach( $text_strings as $text_string ) {
      // убираем лишние пробелы из середины и по краям
      echo "<p>" . trim( preg_replace( "/[ |\\t|\\0|\\x0B]+/", " ", $text_string ), " \t\0\x0B" ) . "</p>" . PHP_EOL;
    }

  }
  // для всех остальных (не текстовых узлов)
  else {
    echo $element->C14N(), PHP_EOL;
  }
}
?>

На выходе получаю обработанные строки с лишними, непонятно откуда взявшимися узлами сверху и снизу:

При этом, если не обрабатывать текстовые ноды, а выводить их напрямую, то этих лишних узлов там вообще нет:

Откуда они берутся и как сделать так, чтобы их не было. При этом обойтись без хаков по только их убиранию.

Вопрос задан более трёх лет назад
189 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 270 просмотров
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 276 просмотров
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 240 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 225 просмотров
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 175 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 154 просмотра
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 321 просмотр
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 292 просмотра
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 446 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 268 просмотров
4

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2017-02-27 04:52:16

чувак, я же уже писал тебе готовое решение.
пустая строка - это тоже текстовая нода. такие дела.

PHP DomDocument: откуда берутся лишние узлы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт