Почему квантификатор {n, } не срабатывает как описано на MSDN?

Question

Дмитрий @dimas6000

Изучаю C#

Почему квантификатор {n, } не срабатывает как описано на MSDN?

Пишу приложение, которое должно из шаблонного текста извлекать данные. В т.ч. ФИО. ФИО всегда полностью, например ПЕТРОВ ПЁТР ПЕТРОВИЧ, или СИДОРОВ-ПЕТРОВ СИДОР СИДОРОВИЧ.
Само регулярное выражение выглядит так:
@"(?<=Должник.*)([А-ЯЁ][а-яё]+[\-\s]?){3,}"

Часть текста из которой извлекается ФИО выглядит примерно как под спойлером, но могут пропадать пробельные символы, например запись может быть просто в одну строку.

spoiler

Должник:
ИВАНОВ ИВАН ИВАНОВИЧ

123456,РОССИЯ,Иркутская обл,,Иркутск г,,Несуществующая ул,12,,

Дата рождения: 01.01.1970
Место рождения: РОССИЯ

Вызов регулярного выражения в коде происходит с "RegexOptions.IgnoreCase" т.к. неизвестно в каком регистре будет ФИО. В итоге из текста выше извлекается "ИВАНОВ ИВАН ИВАНОВИЧ " без каких-то проблем. Если добавить в конец регулярки [а-яё], то будет извлекаться без пробела.

Но иногда, во входных данных может попадаться ФИО из двух слов, например как здесь:

spoiler

Должник:
ИВАНОВ ИВАН

123456,РОССИЯ,Иркутская обл,,Иркутск г,,Несуществующая ул,12,,

Дата рождения: 01.01.1970
Место рождения: ТАДЖИКИСТАН

И по какой-то причине регулярное выражение без проблем находит в этом тексте "ИВАНОВ ИВАН ".

В чём причина такого поведения, и как это можно исправить?
В MSDN написано, что квантификатор "{ n ,}" означает, что "Предыдущий элемент повторяется как минимум n раз." Соответственно, я ожидаю что такое регулярное выражение должно находить конструкцию минимум из трёх слов. Но почему-то это не так.

Вопрос задан более трёх лет назад
120 просмотров

Комментировать

Подписаться Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 1

4 комментария

Boris @BorisKorobkov

Вот эта часть распознается, как большая буква и затем маленькие буквы в количестве больше 1. Это точно то, что вы хотели получить?

Вообще-то имена и фамилии всегда пишутся с заглавной буквы, а остальные буквы строчные.

Написано более трёх лет назад
Saboteur @saboteur_kiev

Boris Korobkov, Простите, Борис.
Вы вопрос топикстартера читали?
Вы видите примеры текста, который привел топикстартер? Можете, пожалуйста, указать где там маленькие буквы в именах и фамилиях?

Написано более трёх лет назад
Дмитрий @dimas6000 Автор вопроса

Saboteur, спасибо за ответ!
Вот эта часть распознается, как большая буква и затем маленькие буквы в количестве больше 1. Это точно то, что вы хотели получить? У вас по идее вообще не должно так работать.
Если у вас это работает, значит где-то уровнем выше вы вообще отключили чувствительность к регистру.

Да, это то, что я хотел получить, и выше чувствительность к регистру отключается, используется "RegexOptions.IgnoreCase".
И почему я сделал именно так, сейчас подумав уже не могу обосновать)
Спасибо за исправление.

Думаю надо +, а не ?

А вот это прям ошибка-ошибка, спасибо, поправил!

Написано более трёх лет назад
Дмитрий @dimas6000 Автор вопроса

Saboteur, спасибо большое за указание ошибки, корректно работающее выражение выглядит так:
(?<=Должник\W*)([А-ЯЁа-яё]+[\-\s]+){3,}
Из-за кусочка [\-\s]? работало некорректно, не сразу понял это из ответа.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Дмитрий @dimas6000 Автор вопроса

Спасибо за ответ, или я чего-то не понимаю, или ваш вариант регулярного выражения не работает, ни в коде на C#, ни на regex101.com.

Задача:
Выбрать комбинации из 3 или более слов, записанными буквами в неизвестном регистре (поэтому регистр букв в регулярном выражении игнорируется при его использовании), слова разделены пробельными символами, слова могут быть составными через дефис (наверное, не более 1 дефиса, хотя теоретически есть шанс на тройное имя). Комбинации идут после слова "Должник", регистр слова всегда правильный, между словом "Должник" и комбинацией могут быть неизвестные небуквенно-цифровые символы в неизвестном количестве.
После комбинации всегда следуют небуквенные символы (индекс цифрами).

Спасибо за ваш ответ, он помог мне понять, что начало нужно записать так:
(?<=Должник\W*)

Написано более трёх лет назад
Rsa97 @Rsa97

Дмитрий, Возможно, C# не знает при невыбирающие группы, попробуйте заменить (?:) на ()

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 201 просмотр
1

ответ
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 137 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 370 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 107 просмотров
1

ответ
C#

+2 ещё

Простой
Как заставить кнопки в ScrollView корректно перераспределять остальные элементы при анимации?
- 1 подписчик
- 10 апр.
- 105 просмотров
1

ответ
C#

Простой
Как прочесть без блокировок в многопоточном приложение 16 байт структурное значение?
- 1 подписчик
- 30 мар.
- 193 просмотра
1

ответ
C#

+1 ещё

Средний
Как убрать проблему, из-за которой карта не возвращается в руку?
- 1 подписчик
- 18 мар.
- 309 просмотров
1

ответ
C#

Средний
Как скачать видео из MAX с параметрами C# GET?
- 2 подписчика
- 14 мар.
- 408 просмотров
0

ответов
C#

+1 ещё

Простой
Как переопределить стиль WPF-компонентов из подключенной библиотеки?
- 1 подписчик
- 02 мар.
- 125 просмотров
1

ответ
C#

Средний
Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?
- 3 подписчика
- 29 янв.
- 281 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-08-11 12:09:43

@"(?<=Должник.*)([А-ЯЁ][а-яё]+[\-\s]?){3,}"

[А-ЯЁ][а-яё]+
Вот эта часть распознается, как большая буква и затем маленькие буквы в количестве больше 1. Это точно то, что вы хотели получить? У вас по идее вообще не должно так работать.
Если у вас это работает, значит где-то уровнем выше вы вообще отключили чувствительность к регистру.
Или проще было бы написать [А-ЯЁа-яё]+.

[\-\s]?
Тут выходит что у нас или есть пробел или нет пробела. То есть ИвановИванИванович тоже подойдет.
Думаю надо +, а не ?

Answer 2 · 2019-08-11 12:55:05

Давайте для начала формализуем задачу.
Необходимо выбрать комбинации из двух или трёх слов, записанных прописными буквами и разделённых пробелами, причём слова могут быть составные через дефис, но не более одного дефиса в слове. Комбинации должны идти после слова "Должник:", между этим словом и комбинацией могут быть только пробельные символы. Всё верно?

(?<=Должник:)\s+([А-ЯЁ]+(?:-[А-ЯЁ]+)?(?:\s[А-ЯЁ]+(?:-[А-ЯЁ]+)?){1,2})

Почему квантификатор {n, } не срабатывает как описано на MSDN?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт