Возможно HTML текст разложить на теги, слова и пробелы?

Question

Евгений Ч @zchepygov

PHP
HTML

Возможно HTML текст разложить на теги, слова и пробелы?

Необходимо преобразовать в массив HTML верстку по такой форме:

<p>Какой-то текст. <strong>Возможно жирный.</strong></p>
<p>И не только один параграф, а очень много!!!</p>

Должно в итоге получиться следующие:

Array
(
    [0] => <p>
    [1] => Какой
    [2] => -
    [3] => то
    [4] => &nbsp; // пробел, но можно заменить на символ, который в дальнейшем будет обозначать пробел
    [5] => текст
    [6] => .
    [7] => &nbsp; // пробел, но можно заменить на символ, который в дальнейшем будет обозначать пробел
    [8] => <strong>
    [9] => Возможно
    [10] => &nbsp; // пробел, но можно заменить на символ, который в дальнейшем будет обозначать пробел
    [n] => ...
)

Есть вот такой вариант, но есть проблемы с закрывающими тегами </ они в коде идут как ошибка + появляются откуда-то пустые элементы массива (не пробелы, а именно пустые элементы внутри тегов).

preg_match_all("/([а-яА-ЯЁёa-zA-Z0-9]*|[.,-_!?;:'\(\)\"]*)/u", $content, $words);

Array
(
    [0] => 
    [1] => <
    [2] => p
    [3] => 
    [4] => >
    [5] => Какой
    [6] => 
    [7] => -
    [8] => то
    [9] => 
    [10] => текст
    [11] => 
    [12] => .
    [13] => 
    [14] => 
    [15] => <
    [16] => strong
    [17] => 
    [18] => >
    [19] => Возможно
    [20] => 
    [21] => жирный
    [22] => 
    [23] => . strong
    [25] => 
    [26] => > p
    [28] => 
    [29] => >
    [30] => 
    [31] => 
    [32] => 
    [33] => <
    [34] => p
    [35] => 
    [36] => >
    [37] => И
    [38] => 
    [39] => не
    [40] => 
    [41] => только
    [42] => 
    [43] => один
    [44] => 
    [45] => параграф
    [46] => 
    [47] => ,
    [48] => 
    [49] => а
    [50] => 
    [51] => очень
    [52] => 
    [53] => много
    [54] => 
    [55] => !!! p
    [57] => 
    [58] => >
    [59] => 
)

Вопрос задан более трёх лет назад
168 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- вчера
- 114 просмотров
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 291 просмотр
2

ответа
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 1 подписчик
- 11 дек.
- 160 просмотров
0

ответов
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 286 просмотров
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 240 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 228 просмотров
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 177 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 179 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 157 просмотров
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 321 просмотр
3

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2020-03-04 02:50:16

Самым корректным способом парсить HTML на PHP будет использование модулей DOM и XPath
https://www.php.net/manual/ru/class.domdocument.php
Либо обёртку над ними на подобии Simple HTML DOM.

Парсить HTML документ регулярками это плохая идея. Регулярки подходят только для совсем простых случаев, типа найти ссылку в документе и тд.

Answer 2 · 2020-03-04 08:16:59

элементарно: любой xml-парсер разложит вход на ноды.
остальное зависит только от вашей фантазии и способностей.

Answer 3 · 2020-03-04 03:16:31

Мне кажется - надо написать конечный автомат. Например, при появлении символа < - он переходит в состояние "внутри тэга", их которого он выйдет по символу >. Но внутри символа тэга - бывают строки (вход - по апострофу или кавычке; выход -= по такому же символу).

При определённых условиях - происходит завершение чтения определённого элемента (слова или тега) и переход к следующему.

Регулярка здесь не годится, ибо в каждом состоянии - свои ключевые элементы, по которым совершаются действия.

Кстати, у Вас не определено, что делать, если в тексте несколько пробелов.

Возможно HTML текст разложить на теги, слова и пробелы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт