Поиск оптимальной регулярки для бинарной классификации строк. Как?

Question

Иван Мельников @immelnikoff

Изучаю БД

Поиск оптимальной регулярки для бинарной классификации строк. Как?

Имеется, скажем, 10 строк и частота их встречаемости в логах. Я хочу отобрать из них только те, в которых подразумевается отдых/путешествие по городам России. А точнее, я хочу получить регулярку, которая с высокой точностью сможет повторить за мной (я предварительно сам размечаю строки классами) бинарную классификацию строк. На самом деле строк очень много – сотни и тысячи. Но я хочу отобрать топ-10/топ-100 строк, руками их разметить и на этих размеченных данный получить нужную мне регулярку, а затем натравить её на все остальные строки.
Рассмотрим пример из 10 строк. Я подобрал руками регулярку, которая хорошо приближает результат к желаемому:

regexp = '(?i)(?=.*(путешеств|отдых))(?=.*(росси|алтае|сочи))'

TP = 200 + 15000 + 800 + 700 = 16700
FP = 500
FN = 0
precision = TP / (TP + FP) = 0.97
recall = TP / (TP + FN) = 1
Вопросы знающей аудитории:
1) Существуют алгоритмы поиска оптимальных регулярок на размеченных данных? В какую сторону рыть?
2) Если регулярку не ограничивать в размерах, то она просто переобучится (на размеченных данных будет работать идеально, а на тестовой выборке – нет). Как это контролировать?
3) Хочется, чтобы регулярка обучалась на словах, а не на пунктуации или спец. символах.

Вопрос задан 22 мар.
200 просмотров

8 комментариев

Подписаться 1 Простой 8 комментариев

Everything_is_bad @Everything_is_bad

если тут машинлёрниг, то зачем нужны регулярки? это как у тебя есть трактор, ты им красиво на поле нарезал прямые полосы, а перекапывать всё равно это лопатой.
ЗЫ "регулярки для классификации" это беда-беда

Написано 22 мар.
Иван Мельников @immelnikoff Автор вопроса

Everything_is_bad, поиск регулярки навернео возможен средствами ML.

Написано 22 мар.
Everything_is_bad @Everything_is_bad

Иван Мельников,
поиск регулярки навернео возможен средствами ML.
набор несвязанный слов, продолжу, воздел земли возможен средствами металла.

Написано 22 мар.
Иван Мельников @immelnikoff Автор вопроса

Everything_is_bad, без проблем.

Написано 22 мар.
dim5x @dim5x

Иван Мельников, Вы пытаетесь ужа с ежом скрестить. Регулярки нужны под конкретику, под шаблон. Вам же нужно искать общее, бесшаблонное, средствами ML.

Возьмите BERT или его производные, например.

Написано 22 мар.
Иван Мельников @immelnikoff Автор вопроса

dim5x, у меня есть система, которая кушает на вход только регулярки. Поэтому мне нужна именно разделяющая регулярка.

Написано 22 мар.
dim5x @dim5x

Иван Мельников, ну тогда, как вариант, стройте дерево. Берите оптимальное по тестам. Каждый уровень будет элементом для регулярки.

Написано 22 мар.
Adamos @Adamos

по городам России

алтае|сочи

Ook.

Написано 22 мар.

Помогут разобраться в теме Все курсы

Хекслет

Java-разработчик

10 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее
Учебный центр IBS

RT-001 Эксплуатация RT.DataLake

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 275 просмотров
3

ответа
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 154 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 185 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 179 просмотров
2

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент.
- 143 просмотра
1

ответ
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 56 просмотров
0

ответов
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент.
- 232 просмотра
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг.
- 228 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 395 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 350 просмотров
1

ответ
Показать ещё Загружается…

DevOps-инженер

DevTeam.Space

от 1 000 до 2 500 $

Senior/Lead PHP Developer

Boomerangme 🎫

от 4 000 до 7 000 $

Системный аналитик

ДАЛЕЕ • Москва

от 200 000 ₽

если тут машинлёрниг, то зачем нужны регулярки? это как у тебя есть трактор, ты им красиво на поле нарезал прямые полосы, а перекапывать всё равно это лопатой.
ЗЫ "регулярки для классификации" это беда-беда
Everything_is_bad, поиск регулярки навернео возможен средствами ML.
Иван Мельников,
поиск регулярки навернео возможен средствами ML.
набор несвязанный слов, продолжу, воздел земли возможен средствами металла.
Иван Мельников, Вы пытаетесь ужа с ежом скрестить. Регулярки нужны под конкретику, под шаблон. Вам же нужно искать общее, бесшаблонное, средствами ML.

Возьмите BERT или его производные, например.
dim5x, у меня есть система, которая кушает на вход только регулярки. Поэтому мне нужна именно разделяющая регулярка.
Иван Мельников, ну тогда, как вариант, стройте дерево. Берите оптимальное по тестам. Каждый уровень будет элементом для регулярки.

Answer 1 · 2025-03-27 10:12:05

Не совсем понятно (по-честному: совсем непонятно), для чего вам регулярки? Это - обычная задача поиска вхождения заданных последовательностей символов в строку, использование там регулярных выражений возможно, но избыточно.

Поиск оптимальной регулярки для бинарной классификации строк. Как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт