Наткнулся на ошибочное поведение в регулярных выражениях?

Question

Shimpanze @Shimpanze

Регулярные выражения

Наткнулся на ошибочное поведение в регулярных выражениях?

Имеем строку:

<html><body><div>
<div>456</div>
<p>Привет, Мир!</p>
<div>456</div>
<p>Привет, Мир!</p>
</div></body></html>

Необходимо отсечь вот эту часть: div></body></html>

Регулярное выражение: '/div[\S\s]*?$/is'

Разбор регулярного выражения:

1. Устанавливаем флаги - регистронезависимый (i) и в одну строку (s) (так как искать будем с конца): /is

2. Найти любые символы, до первого (с конца) слова div: div[\S\s]*?$

...в итоге он выбирает всё до верхнего div... Почему? Ведь явное указание с не жадным оператором искать только до первого (с конца) div: div[\S\s]*?$

Вопрос задан более трёх лет назад
158 просмотров

3 комментария

Подписаться 2 Средний 3 комментария

Решения вопроса 1

3 комментария

Shimpanze @Shimpanze Автор вопроса

Вы не правы. Выражение div[\S\s]*?$ дословно, говорит следующее: так как это одна строка, начав с конца, дойти до слова div и не символом далее. Так как там стоит модификатор НЕ жадности ?.

Написано более трёх лет назад
ayazer @ayazer

Shimpanze, ну давайте прочитаем вместе:
div
за которым идет [любой не-пробел или любой пробел] сколько угодно раз, но пока это не мешает другим условиям
конец строки.

*? = не жадный матч, который выгребает как можно больше, пока это не мешает другим условиям

сделайте поиск по "div[\S\s]*?456" и вы поймете про что я говорю

Написано более трёх лет назад
Shimpanze @Shimpanze Автор вопроса

ayazer, возможно вы правы.
Я написал немного по другому: div(?:[^d][^i][^v])*$ - без негативных проверок.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PHP

+1 ещё

Простой
Регулярное выражение поиск по группам или нет?
- 1 подписчик
- вчера
- 118 просмотров
1

ответ
Python

+1 ещё

Простой
Как составить регулярку для выборки данных между символов?
- 1 подписчик
- 13 апр.
- 70 просмотров
1

ответ
PHP

+1 ещё

Простой
Как вытащить строку из текста?
- 1 подписчик
- 24 мар.
- 188 просмотров
2

ответа
Python

+2 ещё

Простой
Какова верная реализация множественного выбора в SQLite через LIKE и REGEXP (Python)?
- 1 подписчик
- 14 мар.
- 105 просмотров
2

ответа
Регулярные выражения

Простой
Как проверить отсутствие атрибута alt у тега img ругуляркой на php?
- 1 подписчик
- 11 мар.
- 61 просмотр
1

ответ
JavaScript

+1 ещё

Простой
Как заменить всё между строк?
- 1 подписчик
- 08 мар.
- 123 просмотра
1

ответ
Регулярные выражения

+1 ещё

Средний
Как сформировать регулярное выражение из 5 символов для вывода?
- 1 подписчик
- 07 мар.
- 151 просмотр
2

ответа
Nginx

+1 ещё

Простой
Как захватить все запросы с trailing slash на конце?
- 1 подписчик
- 26 февр.
- 70 просмотров
2

ответа
JavaScript

+1 ещё

Простой
Как разбить многостроковый текст на массив с помощью регулярного выражения?
- 1 подписчик
- 26 февр.
- 104 просмотра
2

ответа
JavaScript

+1 ещё

Простой
Как разделить строку через пробел не включая пробел в кавычках?
- 1 подписчик
- 22 февр.
- 85 просмотров
2

ответа
Показать ещё Загружается…

Программист SQL

САМО-Софт • Москва

До 220 000 ₽

Devops (Персона)

Сбер • Москва

от 230 000 ₽

Fullstack developer (JS, C++)

Сбер • Москва

от 300 000 ₽

Настроить nginx, reverse proxy и https (Docker)

16 апр. 2024, в 21:17

1500 руб./в час

Сбилдить chromium под x86_64 Android

16 апр. 2024, в 21:10

25000 руб./за проект

Установить Windows 2019 R2 Standard на Dedicated Server

16 апр. 2024, в 21:08

2000 руб./за проект

А почему вы решили что будете искать с конца?
Дмитрий, Доллар, дорогой друг. Доллар.
Доллар говорит что искать нужно до конца, а не с конца, т.е. вне зависимости от доллара порядок поиска будет прямой, а не обратный, что, собственно, и привело к вашей проблеме.

Answer 1 · 2021-02-17 15:48:34

нет, поведение абсолютно правильное. "/s" говорит что перенос строк будет матчится как ".", потому регулярка успешно матчит все после первого дива

UPD: такое через negative lookahead достать можно
(\bdiv\b.*)(?!.*\1)$ (! без /s флага)

вернет нужное div></body></html>

Наткнулся на ошибочное поведение в регулярных выражениях?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт