Как оптимизировать такое регулярное выражение?

Question

Михаил Р. @Mike_Ro

Python, JS, WordPress, SEO, Bots, Adversting

Регулярные выражения

Как оптимизировать такое регулярное выражение?

Приветствую!

Пытаюсь разобрать html тег (строку текста, похожую на html тег) на составные части.
Пример тега: <div class="test" data-status="false">
Мое регулярное выражение:

<([a-z]+)(?:\s*)(?:(class)="(.*?)")(?:\s*)(?:(data-.*)="(.*?)").*>

Вопросы:
1. Учитывая, что все идет по шаблону (например атрибуты id|class|data-), то как лучше оптимизировать|улучшить регулярное выражение? Возможно 2 раза "искать, но не запоминать пробел" не нужно...
2. Имеется ли возможность помещать содержимое атрибутов сразу в дополнительный массив, который следует сразу за родительским атрибутом? Например было: {'class', 'vasya petya'}, стало: {'class': {vasya petya}}. На настоящий момент, произвожу данную операцию в дополнительном цикле.

Спасибо!

UPD: это не html тег, а строка текста похожая на него. Изучаю регулярные выражения и для примера взял подобного рода задачу. То, что для парсинга html лучше использовать другие инструменты - вкурсе.

Вопрос задан более трёх лет назад
107 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

Алексей Уколов @alexey-m-ukolov

Судя по тегу javascript, вы это в браузере делаете? Почему бы не использовать для решения этой задачи готовое и удобное браузерное API?

Написано более трёх лет назад
Роман @lastuniverse

Mike Ro, если же вы парсите html не в браузере а в nodejs, то для этих целей существует множество различных готовых библиотек.

PS: в качестве саморекламы вот одна из них (не профильная, не самая быстрая и лучшая, но вполне удовлетворяющая поставленной задаче)
https://www.npmjs.com/package/split-tools

Написано более трёх лет назад
Михаил Р. @Mike_Ro Автор вопроса

Алексей Уколов, Роман учу регулярки. Разбор html тегов не причем и был взят лишь для примера...

Написано более трёх лет назад
Роман @lastuniverse

Mike Ro, ну так самореклама же )))

А если по существу, то библиотечка полностью построена на использовании на регуляркок, в описании есть примеры в том числе и разбора html. Возможно сможете найти для себя что-то полезное. Могу предложить для ознакомления еще одну, активно работающую с регулярками (генерирующую регулярки), возможно тоже найдете что то полезное для себя https://www.npmjs.com/package/path-to-regex

Написано более трёх лет назад
Михаил Р. @Mike_Ro Автор вопроса

Роман,
Возможно сможете найти для себя что-то полезное.

Именно так и ищу примеры интересной реализации задач. Но пока регулярки знаю не очень, поэтому и хотел на примере увидеть, как более опытные коллеги решат эту задачу.

еще одну, активно работающую с регулярками (генерирующую регулярки),

404 ошибка мешает, но я понял о чем Вы. Спасибо! =)

Написано более трёх лет назад
Роман @lastuniverse

Mike Ro, сори, точка попала в URL

https://www.npmjs.com/package/path-to-regex

Вечерком доберусь до компа - посмотрю регулярку из Вашего вопроса.

Написано более трёх лет назад
Михаил Р. @Mike_Ro Автор вопроса

Роман,
Вечерком доберусь до компа - посмотрю регулярку из Вашего вопроса.

Спасибо, буду ждать ответа. =)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Хекслет

Java-разработчик

10 месяцев

Далее
Учебный центр IBS

RT-001 Эксплуатация RT.DataLake

1 неделя

Далее
Хекслет

Fullstack-разработчик на Node.js

16 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 293 просмотра
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент.
- 165 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент.
- 255 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг.
- 234 просмотра
2

ответа
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- 04 июн.
- 239 просмотров
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- 01 июн.
- 153 просмотра
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- 16 мая
- 263 просмотра
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- 12 мая
- 175 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- 05 мая
- 142 просмотра
2

ответа
Регулярные выражения

Простой
Как захватить элементы по отдельности?
- 2 подписчика
- 25 апр.
- 308 просмотров
2

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Project менеджер / Менеджер проекта

W3Promo • Москва

от 60 000 до 100 000 ₽

Судя по тегу javascript, вы это в браузере делаете? Почему бы не использовать для решения этой задачи готовое и удобное браузерное API?
Mike Ro, если же вы парсите html не в браузере а в nodejs, то для этих целей существует множество различных готовых библиотек.

PS: в качестве саморекламы вот одна из них (не профильная, не самая быстрая и лучшая, но вполне удовлетворяющая поставленной задаче)
https://www.npmjs.com/package/split-tools
Алексей Уколов, Роман учу регулярки. Разбор html тегов не причем и был взят лишь для примера...
Mike Ro, ну так самореклама же )))

А если по существу, то библиотечка полностью построена на использовании на регуляркок, в описании есть примеры в том числе и разбора html. Возможно сможете найти для себя что-то полезное. Могу предложить для ознакомления еще одну, активно работающую с регулярками (генерирующую регулярки), возможно тоже найдете что то полезное для себя https://www.npmjs.com/package/path-to-regex
Роман,
Возможно сможете найти для себя что-то полезное.

Именно так и ищу примеры интересной реализации задач. Но пока регулярки знаю не очень, поэтому и хотел на примере увидеть, как более опытные коллеги решат эту задачу.

еще одну, активно работающую с регулярками (генерирующую регулярки),

404 ошибка мешает, но я понял о чем Вы. Спасибо! =)
Mike Ro, сори, точка попала в URL

https://www.npmjs.com/package/path-to-regex

Вечерком доберусь до компа - посмотрю регулярку из Вашего вопроса.
Роман,
Вечерком доберусь до компа - посмотрю регулярку из Вашего вопроса.

Спасибо, буду ждать ответа. =)

Answer 1 · 2019-03-11 12:54:30

Так а зачем вам регулярки?

function getAttrs(element) {
    var attrs =  {};

    [...element.attributes].forEach(attr => attrs[attr.name] = attr.value.split(' '))
    return attrs
}

// <div class="question__text js-question-text" itemprop="text description">
console.log(
    getAttrs(document.querySelector('div'))
) 
// -> {"class":["question__text","js-question-text"],"itemprop":["text","description"]}

Answer 2 · 2019-03-11 14:05:35

Например так:

const raw = '<div class="test" data-status="false"></div>';

const $html = parseHTML(raw);

console.log($html.getAttribute('data-status')); //> "false"

function parseHTML(html) {
    const root = document.implementation.createHTMLDocument();
    root.body.innerHTML = html;
    return root.body.children[0];
}

Как оптимизировать такое регулярное выражение?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт