Как можно реализовать нечеткий поиск в строке?

Question

Zhandos M @Zhandos

Алгоритмы

Как можно реализовать нечеткий поиск в строке?

Здравствуйте!
Как вы думаете, можно ли использовать суффиксные деревья для поиска скажем так, сочетания символов в строке. Например в строке abcdef должна найтись подстрока cab и ей будет соответствовать подстрока abcdef, или найтись fed и ей будет соответствовать подстрока abcdef. То есть поиск подстроки не в чётком порядке символов. Когда как в суффиксном дереве порядок символов один из ключевых моментов его высокой производительности на поиск.

Суффиксные деревья вкратце: дерево где есть ветви для каждого суффикса подстроки, например для abcdef будут ветви a, b, ab, c, abc, bc, d, abcd, bcd, cd и т.д. Соответственно если мы ищём какую-либо подстроку, просто от корня идём по символам, если такая ветвь есть, значит подстрока существует, то есть по сути один проход на поиск.

Я ещё думал разбивать изначальную строку на подстроки определенной длины и вычислять их хеши, дальше уже при поиске смотреть, есть ли такой хэш, но что-то явно таких подстрок и их хешей получится много, ведь например в строке abcdef так же должна найтись подстрока cbd, её позиция в начальной строке на первом индексе

Или есть какие-то другие способы? Самый тупой и прямой конечно это линейный поиск.

Реальный кейс задачи
Над данным алгоритмом работаю для реализации поиска фраз в тексте, в примере выше для простоты, слова обозначены отдельными символами. Конечно, все слова как в фразах как и в тексте нормализованы. Нужно найти вхождение фраз (их тысячи) в тексте, при этом положения слов в фразе и в тексте могут не совпадать. Например: фраза "хороший утро" должна найтись в тексте "сегодня утро хороший".
Про sphinx и прочие тоже думал, но т.к. искомых фраз тысячи, искать их будет затратно по каждой фразе.

Спасибо!

Вопрос задан более трёх лет назад
597 просмотров

8 комментариев

Подписаться 2 Сложный 8 комментариев

sim3x @sim3x

abcdef должна найтись подстрока cab
мало похоже на какой-либо поиск, но сильно похоже на регулярку, которая включает набор букв

Написано более трёх лет назад
Zhandos M @Zhandos Автор вопроса

sim3x, регулярные выражение в данном кейсе едва ли применимы, но интересно будет почитать исходный код регулярных выражений и их алгоритмы, всё равно спасибо!

Написано более трёх лет назад

sim3x @sim3x

Zhandos M,

In [4]: re.findall('[cab]+', 'cab и ей будет соответствовать подстрока abcdef')
Out[4]: ['cab', 'abc']

Написано более трёх лет назад

Zhandos M @Zhandos Автор вопроса

sim3x, я понимаю. Для примера в вакууме в топика возможно это применимо, но это просто упрощённый пример. Едва ли, например системы нечеткого поиска используют регулярки

Написано более трёх лет назад
sim3x @sim3x

Zhandos M, а вы приведте реальный пример и кейс

Написано более трёх лет назад
Zhandos M @Zhandos Автор вопроса

sim3x, реальный кейс описан в конце вопроса. Слова в фразе и в тексте конечно все будут нормализованы.
В целом начальный алгоритм я думаю такой, для уменьшения количества потенциальных фраз. Сперва идёт поиск в базе фраз по всем словам из текста. Так мы получаем фразы, в которых присутствуют слова из текста. Дальше мы уже должны искать фразы в тексте, порядок слов в тексте и в фразе может не совпадать. При этом пересечения фраз быть не должно (это тривиально вычисляется по позициям).

Написано более трёх лет назад
sim3x @sim3x

Zhandos M,
нормализовать
наивно искать по совпадению

Кейс - стоит все таки описать. Без него непонятно - подойдет ли готовый софт

Написано более трёх лет назад
Zhandos M @Zhandos Автор вопроса

sim3x, описал кейс более подробно

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 171 просмотр
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 149 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 279 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 475 просмотров
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 91 просмотр
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 124 просмотра
1

ответ
Алгоритмы

Простой
Какие переходы для ДП Codeforces Петя и пауки?
- 1 подписчик
- 27 мая
- 167 просмотров
1

ответ
Алгоритмы

Простой
Какую букву в игре поле чудес в этом случае лучше всего открыть? правильное ли это решение?
- 1 подписчик
- 20 мая
- 251 просмотр
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 273 просмотра
1

ответ
C#

+1 ещё

Простой
Почему моя реализация Shaker Sort-а такая медленная?
- 2 подписчика
- 17 мая
- 621 просмотр
1

ответ
Показать ещё Загружается…

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

abcdef должна найтись подстрока cab
мало похоже на какой-либо поиск, но сильно похоже на регулярку, которая включает набор букв
sim3x, регулярные выражение в данном кейсе едва ли применимы, но интересно будет почитать исходный код регулярных выражений и их алгоритмы, всё равно спасибо!
Zhandos M,
In [4]: re.findall('[cab]+', 'cab и ей будет соответствовать подстрока abcdef') Out[4]: ['cab', 'abc']
sim3x, я понимаю. Для примера в вакууме в топика возможно это применимо, но это просто упрощённый пример. Едва ли, например системы нечеткого поиска используют регулярки
Zhandos M, а вы приведте реальный пример и кейс
sim3x, реальный кейс описан в конце вопроса. Слова в фразе и в тексте конечно все будут нормализованы.
В целом начальный алгоритм я думаю такой, для уменьшения количества потенциальных фраз. Сперва идёт поиск в базе фраз по всем словам из текста. Так мы получаем фразы, в которых присутствуют слова из текста. Дальше мы уже должны искать фразы в тексте, порядок слов в тексте и в фразе может не совпадать. При этом пересечения фраз быть не должно (это тривиально вычисляется по позициям).
Zhandos M,
нормализовать
наивно искать по совпадению

Кейс - стоит все таки описать. Без него непонятно - подойдет ли готовый софт

Answer 1 · 2018-12-19 13:12:42

Евгений Козлов @lebron32rus

Senior Software Engineer

Расстояние Левенштейна

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-12-19 15:26:01

Алгоритм n-gramm, расстояние лвенштейна, а вообще по этому поводу есть очень хорошая статья на хабре https://habr.com/post/114997/

Как можно реализовать нечеткий поиск в строке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт