Как с помощью regexp удалить теги, у которых есть атрибут class и style, вместе с контентом?

Question

Алексей Володин @alexeyvolodin

истина где-то рядом

Регулярные выражения

Как с помощью regexp удалить теги, у которых есть атрибут class и style, вместе с контентом?

Доброго времени суток.
Есть кусок html кода

<span>Lorem ipsum dolor sit amet consectetur adipisicing elit. Obcaecati iste ullam suscipit voluptatibus, adipisci quis inventore ipsum quasi totam voluptas eaque, nihil sunt dicta maiores nostrum quaerat corporis ducimus optio.</span>
<span class="asdaad" style="display: block"><small>Some text</small></span>
<span>Iste, officia rerum maiores laborum at iure iusto quia excepturi assumenda tenetur saepe ratione, eveniet veniam, quos quaerat cumque. Laudantium, praesentium? Quas porro perspiciatis officiis labore tempora quaerat enim totam!</span>
<span class="uadnvi" style="display: block"><small>Some text</small></span>
<span>Dolorem voluptas voluptatem excepturi sunt sequi dolorum error iusto aliquid voluptate magni alias ut quasi facere doloribus id saepe necessitatibus officiis esse, eligendi quod soluta ipsa culpa! Adipisci, veritatis, aliquam?</span>
<span class="sdtrad" style="display: block"><small>Some text</small></span>
<span>Quibusdam facere sed porro officia, dolor non nisi nesciunt, rem sit ipsa amet natus reiciendis beatae aut ab magnam rerum repudiandae et repellendus dolore? Nisi, doloremque neque perferendis magnam nemo.</span>
<span class="osdurb" style="display: block"><small>Some text</small></span>
<span>Exercitationem, reprehenderit. Ipsa pariatur magnam id, ad est, numquam exercitationem sint repellat tempora reiciendis culpa dolore aliquam aspernatur laborum officia quos? Sequi, minus minima unde voluptate modi error maiores tenetur.</span>

Если это важно - код приходит одной строкой. Значение классов у span генерируется всегда новое.
Как при помощи регулярок можно удалить span у которых есть class и style вместе с содержимым, не затронув при этом span без аттрибюутов, не содержащие паразитных строк.

Вопрос задан более трёх лет назад
318 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Stepik

Регулярные выражения в Python

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее
Учебный центр IBS

RT-001 Эксплуатация RT.DataLake

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 295 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент.
- 168 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент.
- 258 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг.
- 234 просмотра
2

ответа
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- 04 июн.
- 240 просмотров
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- 01 июн.
- 154 просмотра
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- 16 мая
- 264 просмотра
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- 12 мая
- 175 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- 05 мая
- 142 просмотра
2

ответа
Регулярные выражения

Простой
Как захватить элементы по отдельности?
- 2 подписчика
- 25 апр.
- 308 просмотров
2

ответа
Показать ещё Загружается…

Fullstack разработчик (TypeScript+React). Свободный график. Фулл тайм.

Круглый Квадрат

от 300 000 до 450 000 ₽

DevOps инженер

Data World • Москва

До 200 000 ₽

Инженер производительности систем

Vital Partners

До 304 000 ₽

Answer 1 · 2020-09-28 11:02:44

Плохая идея регекспами такое парсить. Лучше воспользйтесь lxml или любым таким парсером.
Проблема в том, что у вас внтури такого тега может (теоретически) быть непредсказуемая вложенность других тегов. Рекурсивные и контекстные вещи регекспами делаются очень неудобно.
Разбейте весь текст запроса на лексемы, например так:
re.split('<|>')
И вы получите сисок, где нулевой и все четные элементы - это фрагменты текста, а все нечетные по индексу элементы - это содержимое тегов. Содержимое закрывающих тегов можно распозать по слешу.
Дальше нужно запрограммировать конечный автомат с двумя состояниями, которому можно скормить этот список, а вернёт он такой же список, но отфильтрует ненужные элементы.
Грубо говоря, в первом состоянии вы перебираете входной список и когда встречаете нечетный эелемент (тег), начинающийся со слова span и содержащий атрибуты, сбрасываете счетчик в ноль и переходите во творое состояние.
Во втором - перебираете се элементы и инкрементируете счетчик каждый раз когда попадается открывающий тег, и декрементируете когда попадается закрывающий (нечетный элемент, начинающийся начинается со слеша). Если счетчик снова стал нулём, переходите в первое состояние.
На выход следует пропускать только элементы находясь в первом состоянии. Второе состояние подавляет выхлоп.

def f(lexems): 
    state, deep = 0, 0 
    for i, lex in enumerate(lexems): 
        if state == 0: 
            if i%2 and lex.startswith('span '): 
                state = 1 
                deep = 1 
            else: 
                yield f'<{lex}>' if i%2 else lex 
        else: 
            if i%2: 
                deep += -1 if lex.startswith('/') else 1 
            if deep == 0: 
                state = 0

Answer 2 · 2020-09-28 11:05:40

Почти регулярка) Но это заработает также

(function(){
$('span').each(function(){
if($(this).attr('class') && $(this).attr('style') $(this).remove() 
})
})(jQuery)

Неблагодарите.

Как с помощью regexp удалить теги, у которых есть атрибут class и style, вместе с контентом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт