Как проверить строку на предмет соответствия списку шаблонов (LIKE)?

Question

Константин @bergsteiger

MySQL
SQL

Как проверить строку на предмет соответствия списку шаблонов (LIKE)?

Имеет таблица с 100к+ шаблонов (разные вариации '%text%'). Необходимо проверить средствами MySQL строки (допустим 10к) на предмет соответствия хотя бы одному из шаблонов (true/false).

Какой алгоритм посоветуете, куда копать?

Вопрос задан более трёх лет назад
3166 просмотров

2 комментария

Подписаться 2 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 136 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 119 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 368 просмотров
2

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 317 просмотров
2

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 998 просмотров
5

ответов
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 251 просмотр
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 221 просмотр
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 226 просмотров
2

ответа
SQL

Простой
Как мне перестроить sql-запрос так, чтобы сообщение не удалялось, с изменением его содержания в начале?
- 1 подписчик
- 01 февр.
- 215 просмотров
1

ответ
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 322 просмотра
4

ответа
Показать ещё Загружается…

так цель — сразу проверить много строк, или по одной? если по одной, первый комментарий отвечает на вопрос.

Answer 1 · 2013-02-27 17:23:32

SELECT 1 FROM table WHERE 'hello world' LIKE pattern LIMIT 1

Где таблица table с колонкой pattern (шаблоны), а тестируемая строка — 'hello world'.

Answer 2 · 2013-02-27 17:53:15

Можно я присоединюсь к вопросу, расширив его до:

Имеется очень большое количество строк (в общем случае, с бинарными данными, конечно было бы лучше). Эти строки очень похожи! Размер строк варьируется в пределах от считанных байт до нескольких десятков килобайт.
лучшее что можно сказать про эти строки, — грубо говоря, это различные сообщения по некоторому количеству шаблонов (их количество тоже заранее неизвестное, но тоже большое, примерно количество сравнимое с log(n)). Нет возможности заранее получить эти шаблоны (источник данных независим), мало того, во времени шаблоны меняются, т.е. могут появляться новые и исчезать старые.

Задача, с некоторым приближением (речь не идет о максимальной эффективности), обнаруживать похожие сообщения, или в терминах описанной выше информации об этих строках — выявить шаблон для каждого сообщения. Уровень эффективности можно определить по размеру патча какого-либо diff-алгоритма (тот же bzdiff).

Если задачу решать нахрапом, то это для каждого следующего сообщения производить сравнение с каждым предыдущим (можно взять некоторое окно во времени), вычислять расстояние (размер diff патча) и брать наименьшее.

Дальше можно оптимизировать на основе предположения что если сообщение A находится на расстоянии от B и если C находится на примерно таком же раасстоянии от B, то расстояние между A и C будет примерно таким же, а значит если хранить матрицу расстояний между сообщениями (не для всех а только проверяемых) то расстояние для не проверенных пар можно вычислять из соседних 'соседних'. Можно даже пройтись по архиву и выявить коэффицент/погрешность, которая накапливается если использовать это вышеописанное предположение (A->B)&(C->B) = (A->C) многократно для A->D, A->E на основе таких же вычисленных B->D и B->E или даже D->E… в общем чтобы вместо трудоемкости N*M получить хотя бы N*log(M) где N — количество сообщений, M — размер окна, количество последних сравниваемых собщений (в этом случае их можно уже считать шаблонами).

Answer 3 · 2013-02-28 12:25:25

Тут вступаем на скользкую почву, mysql я видел один раз лет десять назад :)

Исходя из общих соображений, однако (решение в лоб):

SELECT UNIQUE s.string
FROM   strings s
JOIN   templates t ON s.string LIKE t.template

Если в мускуле можно делать селекты прямо из коллекций, пусть strings будет такой коллекцией, если нет — писать строки во временную таблицу.
С join condition можно поэкспериментировать, например использовать regexp_like (или как это нызвается в mysql?)

Как проверить строку на предмет соответствия списку шаблонов (LIKE)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт