Как найти элемент DOM с учетом вложенности по значению атрибута на php?

Question

IvanMiroshin @IvanMiroshin

Как найти элемент DOM с учетом вложенности по значению атрибута на php?

Есть шаблон вида:

<section name="myname1">
     ...
     <div name="myname2">
          ... 
          <p name="myname3">
               ...
          </p>
          ...
     </div>
     ...
</section>
<div name="myname4">
     ...
     <div name="myname5">
          ... 
     </div>
     ...
</div>

Задача в том чтобы найти все элементы DOM у которых есть атрибут «name» верхнего уровня со всеми вложенными в него элементами. При этом атрибут может содержать текст на кириллице, собственно так же как и вложенные конструкции в него.

Библиотеки я использовать не могу (есть требование заказчика исключить зависимости).

Первый подход к снаряду был такой:
/<\s*([a-z0-9]*)\b[^>]*\bname\s*=\s*\"([^\"]*)[^>]*>(?>(?:[^<]|<(?!\s*\/?\1\s*\b))|(<\s*\1[^>]*>(?>(?:[^<]|<(?!\s*\/?\s*\1\s*\b))|(?3))+?<\s*\/\s*\1\s*>))*<\/\1>/is

Это работает до тех пор, пока вложенность тега « ... » не вырастает более чем в 700 строк. После чего регулярное выражение просто ничего не находит. Но тут есть момент, например, если поставить вместо тега «section» тег «div», все будет работать.

Другие изыскания:
Пробовал реализацию через PHPDocument, но там возникли проблемы с кодировкой (штука в том, что я не знаю в какой кодировке будет использован разрабатываемый скрипт).

Пробовал, сначала найти « .*», а потом через функцию «preg_match_all» с флагом «PREG_OFFSET_CAPTURE» найти количество открывающихся и закрывающихся одноименных тегов и их позиции в строке, с последующим вычислением конечного закрывающего тега для искомого. Но и тут я споткнулся об пресловутую кириллицу.

Пробовал XPath, не могу добиться чтобы он корректно переваривал не до конца валидную верстку. Особенно сильно ругается на использование svg инлайном. В завершении бросает критическую ошибку:
Uncaught exception 'Exception' with message 'String could not be parsed as XML' in ...:748 Stack trace: #0 ... (748): SimpleXMLElement->__construct('

Вопрос задан более трёх лет назад
836 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Skillbox

Профессия PHP-разработчик с нуля до PRO

7 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

4 комментария

IvanMiroshin @IvanMiroshin Автор вопроса

Хм. Судя по мануалу ( php.net/manual/ru/simplexml.installation.php ), это расширение включено по умолчанию, поддерживается с версии php 5 ( php.net/manual/ru/simplexml.requirements.php ). Следовательно, скрипт должен корректно работать на любом хостинге.

Вроде подходит. Спасибо. Попробую.

Написано более трёх лет назад
IvanMiroshin @IvanMiroshin Автор вопроса

Пробовал XPath, не могу добиться чтобы он корректно переваривал не до конца валидную верстку. Особенно сильно ругается на использование svg инлайном. В завершении бросает критическую ошибку:
Uncaught exception 'Exception' with message 'String could not be parsed as XML' in ...:748 Stack trace: #0 ... (748): SimpleXMLElement->__construct('

Написано более трёх лет назад
Андрей Николаев @gromdron

IvanMiroshin: тут только валидной версткой. А то вдруг, вы тег открыли и не закрыли.

Написано более трёх лет назад
IvanMiroshin @IvanMiroshin Автор вопроса

Ну в том то и дело что я не могу ожидать валютную верстку.

Значит только оегуляркв спасет мир :)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- час назад
- 28 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 21 час назад
- 108 просмотров
1

ответ
PHP

+3 ещё

Средний
Как организовать автоматическую выдачу цифровых товаров после оплаты на чистом PHP?
- 2 подписчика
- 20 апр.
- 196 просмотров
3

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 218 просмотров
2

ответа
Веб-разработка

Простой
Можно ли в постмана подменить статус ответа например с 200 ок на 403?
- 1 подписчик
- 08 апр.
- 221 просмотр
2

ответа
JavaScript

+1 ещё

Простой
Как остаться на той же странице при скачивании файла?
- 1 подписчик
- 08 апр.
- 286 просмотров
2

ответа
PHP

Простой
Не работает яндекс ссылка прямая?
- 1 подписчик
- 07 апр.
- 196 просмотров
1

ответ
Веб-разработка

Простой
Windows. БД и php — IIS или open-source?
- 1 подписчик
- 02 апр.
- 323 просмотра
2

ответа
PHP

Простой
Почему слетает сайт при загрузке обработчика?
- 1 подписчик
- 02 апр.
- 219 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Мошеннический сайт. Как решить?
- 3 подписчика
- 26 мар.
- 734 просмотра
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 15 000 до 250 000 ₽

Программист PHP

Базис-Центр • Коломна

от 70 000 до 250 000 ₽

Fullstack PHP Laravel/VueJS разработчик

Emsoft

До 150 000 ₽

Answer 1 · 2017-04-11 09:53:30

Проблема решена:

/<table\b[^\>]*\bname=(\"|')?table01\1[^\>]*>(?>([^\<]+|<(?!\/?table\b))|(<table[^\>]*>(?:(?2)|(?3)|)+?<\/table>))*<\/table>/ix

Название тега: table, можно заменить на ([a-z0-9]+), тогда будет выполнен поиск по всем тагам. Главное потом подставить эту группу в соответствующие позиции в регулярном выражении.

Название и значение атрибута («name», «table01»), можно подставлять динамически (в моем случае задаются переменными php)

Все описанные мной проблемы с парсингом вложенности большого объема — решены.

Надеюсь, кому-нибудь окажусь полезным :)

Answer 2 · 2017-04-10 08:58:26

Если можно искать на клиенте ( + jquery), то можно по такому селектору:
$('body > *[name]')
Если надо разгребать на php , вот есть какой то парсер - PHP Simple HTML DOM Parser и по аналогии селектором выше

Answer 3 · 2017-04-10 10:22:28

Андрей Николаев @gromdron

Работаю с Bitrix24

Как насчет xpath ? Не смотрели в его сторону?

Ответ написан более трёх лет назад

4 комментария

Как найти элемент DOM с учетом вложенности по значению атрибута на php?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт