Наткнулся на ошибочное поведение в регулярных выражениях?

Question

Shimpanze @Shimpanze

Регулярные выражения

Наткнулся на ошибочное поведение в регулярных выражениях?

Имеем строку:

<html><body><div>
<div>456</div>
<p>Привет, Мир!</p>
<div>456</div>
<p>Привет, Мир!</p>
</div></body></html>

Необходимо отсечь вот эту часть: div></body></html>

Регулярное выражение: '/div[\S\s]*?$/is'

Разбор регулярного выражения:

1. Устанавливаем флаги - регистронезависимый (i) и в одну строку (s) (так как искать будем с конца): /is

2. Найти любые символы, до первого (с конца) слова div: div[\S\s]*?$

...в итоге он выбирает всё до верхнего div... Почему? Ведь явное указание с не жадным оператором искать только до первого (с конца) div: div[\S\s]*?$

Вопрос задан более трёх лет назад
163 просмотра

3 комментария

Подписаться 2 Средний 3 комментария

Помогут разобраться в теме Все курсы

Stepik

Регулярные выражения в Python

1 неделя

Далее
ProductStar

Основы Java и автоматизированное тестирование

2 месяца

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Shimpanze @Shimpanze Автор вопроса

Вы не правы. Выражение div[\S\s]*?$ дословно, говорит следующее: так как это одна строка, начав с конца, дойти до слова div и не символом далее. Так как там стоит модификатор НЕ жадности ?.

Написано более трёх лет назад
ayazer @ayazer

Shimpanze, ну давайте прочитаем вместе:
div
за которым идет [любой не-пробел или любой пробел] сколько угодно раз, но пока это не мешает другим условиям
конец строки.

*? = не жадный матч, который выгребает как можно больше, пока это не мешает другим условиям

сделайте поиск по "div[\S\s]*?456" и вы поймете про что я говорю

Написано более трёх лет назад
Shimpanze @Shimpanze Автор вопроса

ayazer, возможно вы правы.
Я написал немного по другому: div(?:[^d][^i][^v])*$ - без негативных проверок.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт. 2025
- 301 просмотр
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент. 2025
- 179 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент. 2025
- 263 просмотра
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг. 2025
- 235 просмотров
2

ответа
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- 04 июн. 2025
- 241 просмотр
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- 01 июн. 2025
- 155 просмотров
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- 16 мая 2025
- 266 просмотров
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- 12 мая 2025
- 176 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- 05 мая 2025
- 145 просмотров
2

ответа
Регулярные выражения

Простой
Как захватить элементы по отдельности?
- 2 подписчика
- 25 апр. 2025
- 311 просмотров
2

ответа
Показать ещё Загружается…

SEO Специалист

Donatov.net

от 80 000 ₽

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

А почему вы решили что будете искать с конца?
Дмитрий, Доллар, дорогой друг. Доллар.
Доллар говорит что искать нужно до конца, а не с конца, т.е. вне зависимости от доллара порядок поиска будет прямой, а не обратный, что, собственно, и привело к вашей проблеме.

Answer 1 · 2021-02-17 15:48:34

нет, поведение абсолютно правильное. "/s" говорит что перенос строк будет матчится как ".", потому регулярка успешно матчит все после первого дива

UPD: такое через negative lookahead достать можно
(\bdiv\b.*)(?!.*\1)$ (! без /s флага)

вернет нужное div></body></html>

Наткнулся на ошибочное поведение в регулярных выражениях?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт