Как выставить приоритет в группе захвата вида (text1|text2)?

Question

klajowski @klajowski

Регулярные выражения

Как выставить приоритет в группе захвата вида (text1|text2)?

Задача следующая:
Если в регулярном выражении (text1|text2), было совпадение с text1, то совпадения с text2 не проверялись.
Но если text1 не найден, то искались совпадения с text2. Как я понял, нужно выставить некий приоритет или что-то вроде того.
Дело в том, что в нескольких кусках текста, поиск в которых я выполняю, могут быть ситуации когда есть только text2, а могут быть - когда есть и text1 и text2 (причём они идут подряд, text2 после text1).

Вопрос задан более трёх лет назад
86 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

dodo512 @dodo512

Там в результаты попадает что-то лишнее? Не совсем понятно.
Возможно что-то такое https://regex101.com/r/465BqG/1
Покажите пару реальных примеров текстов и регулярки.

Написано более трёх лет назад
klajowski @klajowski Автор вопроса
dodo512, Вот моя регулярка:

<div class="content">(.*)(<h2(.*)>Тест</h2>|<div class="ratings")

У меня идёт парсинг страниц, на которых может быть "Тест", а может и не быть. Только почему-то, всегда захватывается весь текст между <div class="content"> и <div class="ratings" (то есть всегда из тех двух вариантов выбирается второй). Я пробовал использовать только <h2(.*)>Тест</h2> и получал результат, но страницы на которых не было "Теста" отсеивались.
Я в регулярках новичок, поэтому может быть, делаю здесь какую-то грубую ошибку.
Написано более трёх лет назад
klajowski @klajowski Автор вопроса

klajowski, забыл написать что символ . в регулярке означает вообще любой символ (даже переход на новую строку), то есть поиск происходит в многострочном режиме.

Написано более трёх лет назад
dodo512 @dodo512
klajowski, по умолчанию квантификаторы жадные и (.*) захватит максимальное количество текста.
Нужно переключить в ленивый режим (.*?).

<div class="content">(.*?)(<h2[^>]*>Тест</h2>|<div class="ratings")

Но для работы с HTML лучше применить не регулярки, а спец инструменты вроде XPath
Написано более трёх лет назад
klajowski @klajowski Автор вопроса

dodo512, Спасибо

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

Регулярные выражения в Python

1 неделя

Далее
ProductStar

Основы Java и ООП

1 месяц

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 300 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент.
- 176 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент.
- 262 просмотра
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг.
- 235 просмотров
2

ответа
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- 04 июн.
- 240 просмотров
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- 01 июн.
- 155 просмотров
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- 16 мая
- 266 просмотров
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- 12 мая
- 175 просмотров
0

ответов
ВКонтакте

+1 ещё

Простой
Как с помощью регулярного выражения получить oid и id видео из ссылки?
- 1 подписчик
- 05 мая
- 144 просмотра
2

ответа
Регулярные выражения

Простой
Как захватить элементы по отдельности?
- 2 подписчика
- 25 апр.
- 310 просмотров
2

ответа
Показать ещё Загружается…

Менеджер проектов

Vital Partners • Москва

от 160 000 до 180 000 ₽

Database Administrator / Администратор PostgreSQL

Vital Partners

от 200 000 до 270 000 ₽

Technical support (Ассистент Product Owner)

uKit Group • Ростов-на-Дону

от 50 000 до 55 000 ₽

Там в результаты попадает что-то лишнее? Не совсем понятно.
Возможно что-то такое https://regex101.com/r/465BqG/1
Покажите пару реальных примеров текстов и регулярки.
dodo512, Вот моя регулярка:

<div class="content">(.*)(<h2(.*)>Тест</h2>|<div class="ratings")

У меня идёт парсинг страниц, на которых может быть "Тест", а может и не быть. Только почему-то, всегда захватывается весь текст между <div class="content"> и <div class="ratings" (то есть всегда из тех двух вариантов выбирается второй). Я пробовал использовать только <h2(.*)>Тест</h2> и получал результат, но страницы на которых не было "Теста" отсеивались.
Я в регулярках новичок, поэтому может быть, делаю здесь какую-то грубую ошибку.
klajowski, забыл написать что символ . в регулярке означает вообще любой символ (даже переход на новую строку), то есть поиск происходит в многострочном режиме.
klajowski, по умолчанию квантификаторы жадные и (.*) захватит максимальное количество текста.
Нужно переключить в ленивый режим (.*?).

<div class="content">(.*?)(<h2[^>]*>Тест</h2>|<div class="ratings")

Но для работы с HTML лучше применить не регулярки, а спец инструменты вроде XPath

Как выставить приоритет в группе захвата вида (text1|text2)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт