Как регуляркой вырезать контент между тегами учитывая структуру dom?

Question

sohav @sohav

Как регуляркой вырезать контент между тегами учитывая структуру dom?

Есть вот такой html-код:

<div class="article">
	<p class="title">Test!</p>
	<div>Content content</div>
	<p>test test</p>
	<div class="test">test</div>
	<p>test</p>
</div>
<?= rand(0,100); ?>
<div class="article">
	<p class="title">Test1!</p>
	<div>Content content1</div>
	<p>test test1</p>
	<div class="test">test1</div>
	<p>test1</p>
</div>

Подскажите, пожалуйста, регулярку, которая бы выбрала контент внутри тегов div.article.

Пробую /<div class="article">(.*?)<\/div>/igs, но все зарубается на первом вхождении </div>, можно поставить флаг U, но тоже не тот результат :-(
Хочется сделать это именно регулярками, а не парсером xml

Вот ссылочка на песочницу - https://regex101.com/r/6HDlxK/1/

Спасибо!

Вопрос задан более трёх лет назад
806 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Решения вопроса 1

4 комментария

BoShurik @BoShurik
Все-таки для такой задачи лучше использовать `DOMDocument` или `SimpleXML`.
Стоит структуре поменяться, к примеру на
<div class="article"><div>Content content</div></div>

уже работать не будет

PS: Без знаменитого ответа на SO этот комментарий был бы не полным: https://stackoverflow.com/a/1732454
Написано более трёх лет назад
ns 5d @ns5d

BoShurik, все это так, но я как понял нужен тупо текст.

Написано более трёх лет назад
BoShurik @BoShurik

ns 5d, тот же DOMDocument может и просто контент строкой выводить

Написано более трёх лет назад
ns 5d @ns5d

BoShurik, хотя да. согласен.

Написано более трёх лет назад