Как написать свое регулярное выражение?

Question

n1ksON @n1ksON

мидл

Как написать свое регулярное выражение?

Необходимо обработать символ *, который означает, что предыдущий символ встречается 0 или более раз.
Дается какая-то строка, например, s="a*b*a". Это означает, что эта строка эквивалентна: a, aa, ba, aba, aaa, bbb, и тд. С парсингом строки s в целом вопросов нет, я разбиваю ее на массив символов и массивом чисел, который характеризует символы. В данном случае:
['a', 'b', 'a'];
[1, 1, 0];
То есть первые 'a' и 'b' являются необычными символами, последний 'a' является обычным.

И теперь вопрос, как проверить на равенство эту строку с другими?
Самая большая проблема возникает, когда для указанного выше s, поступает на проверку строка: "a". Как алгоритм должен понимать, что эта 'a' подходит только к обычному символу 'a' из s. Если я последовательно начну проверять и сперва сверю с необычным 'a', то потом для обычного 'a' символов во входной строке уже не останется и алгоритм решит, что строка неправильная.

Аналогичная задача есть со спец символом ?.

Вопрос задан более двух лет назад
164 просмотра

6 комментариев

Подписаться 1 Средний 6 комментариев

Lynn «Кофеман» @Lynn

В смысле вы хотите написать свой «движок» для регулярных выражений?

Проще всего бектрекингом

Написано более двух лет назад
n1ksON @n1ksON Автор вопроса

Lynn «Кофеман», нет) это просто домашняя задачка из универа, над которой уже несколько дней ломаю голову.
нужно реализовать лишь несколько простых возможностей регулярок

Написано более двух лет назад
n1ksON @n1ksON Автор вопроса

Lynn «Кофеман», я понимаю, как этот метод подойдет для символа "?", который означает 0 или 1 раз встречается предыдущий символ. В котором у нас ограниченное число комбинаций.
А как этот метод применить для "*"? Отойти на шаг назад, значит увеличить количество повторений данного символа на 1, но ведь мы не знаем до какого момента нужно увеличивать, чтоб снова отойти на шаг назад и менять предыдущий символ

Написано более двух лет назад
Lynn «Кофеман» @Lynn

n1ksON, Ну так можно отходить на любое количество шагов назад.
Да, в случае неудачного выражения и строки можно получить экспоненциальное время выполнения.

Ну или можно стоить детерминированный конечный автомат, но это уже более другая задача.

Написано более двух лет назад
mayton2019 @mayton2019
Давайте от эпистолярного стиля переходить к контрактам. По сути мы ищем функцию следующего вида

boolean is_match(char *pattern, char *expression) { ..... }

Где в качестве мета-символов используются звездочка и вопросительный знак.

UPD: Автор. Верно ли я понял твой вопрос?
Написано более двух лет назад
n1ksON @n1ksON Автор вопроса

mayton2019, да

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C

+4 ещё

Средний
Почему прошивка для STM32F103 не запускается после перехода с Keil на Cmake?
- 1 подписчик
- 11 дек. 2025
- 140 просмотров
0

ответов
Debian

+1 ещё

Простой
Где OpenWatcom в Debian!?
- 1 подписчик
- 17 нояб. 2025
- 176 просмотров
1

ответ
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб. 2025
- 526 просмотров
5

ответов
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 300 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 216 просмотров
2

ответа
C

Средний
Почему мой лексер выдает неизвестные токены?
- 1 подписчик
- 25 окт. 2025
- 137 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 211 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 179 просмотров
0

ответов
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт. 2025
- 161 просмотр
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 352 просмотра
1

ответ
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

ML-разработчик (аудио)

НТЦ ПРОТЕЙ • Санкт-Петербург

от 220 000 до 280 000 ₽

В смысле вы хотите написать свой «движок» для регулярных выражений?

Проще всего бектрекингом
Lynn «Кофеман», нет) это просто домашняя задачка из универа, над которой уже несколько дней ломаю голову.
нужно реализовать лишь несколько простых возможностей регулярок
Lynn «Кофеман», я понимаю, как этот метод подойдет для символа "?", который означает 0 или 1 раз встречается предыдущий символ. В котором у нас ограниченное число комбинаций.
А как этот метод применить для "*"? Отойти на шаг назад, значит увеличить количество повторений данного символа на 1, но ведь мы не знаем до какого момента нужно увеличивать, чтоб снова отойти на шаг назад и менять предыдущий символ
n1ksON, Ну так можно отходить на любое количество шагов назад.
Да, в случае неудачного выражения и строки можно получить экспоненциальное время выполнения.

Ну или можно стоить детерминированный конечный автомат, но это уже более другая задача.
Давайте от эпистолярного стиля переходить к контрактам. По сути мы ищем функцию следующего вида

boolean is_match(char *pattern, char *expression) { ..... }

Где в качестве мета-символов используются звездочка и вопросительный знак.

UPD: Автор. Верно ли я понял твой вопрос?

Answer 1 · 2023-02-22 13:07:26

Без теории тут никак.
Тут 2 варианта: или стройте конечный недетерменированный автомат (с эпсилон переходами), который соответствует этому регулярному выражению и дальше применяйте стандартный алгоритм проверки. что автомат принимает заданную строку. Или второй вариант: пишите динамическое программирование "соответствует ли вот этот префикс заданной строки вот этому префиксу регулярного выражения".

Конечный автомат будет и побыстрее работать и памяти меньше требовать.

upd: ну и, конечно, тут полным перебором рекурсивно можно сделать. Но это будет гораздо медленнее любого из указанных выше методов.

Как написать свое регулярное выражение?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт