Чем осуществить нечеткий поиск ключевых фраз в тексте?

Question

Андрей @impwx

Разработчик

Чем осуществить нечеткий поиск ключевых фраз в тексте?

Есть текст на русском языке. Он написан в свободной форме и потенциально содержит опечатки. Нужно алгоритмически вытащить из него определенные факты, описываемые ключевыми словосочетаниями.

Допустим, мы ищем упоминания даты по фразе сегодня в ЧЧ:ММ. Строгое совпадение можно найти регуляркой, но она не найдет различные варианты написания - севодня в ЧЧ:ММ, сегодняв ЧЧ:ММ, в ЧЧ:ММ сегодня, сегодня в полдень и так далее.

Варианты, которые приходили в голову:

* Поиск регулярками по звуковому хешу (Metaphone / Soundex)
* Поиск регулярками по тексту, прогнанному через стеммер \ лемматизатор
* Полнотекстовый поиск в чистом виде (Lucene.Net)

Есть ли какой-то готовый способ сделать это достаточно качественно, используя стек .NET? Платные сервисы \ библиотеки тоже рассматриваются.

Вопрос задан более трёх лет назад
380 просмотров

1 комментарий

Подписаться 2 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее
Яндекс Практикум

Продвинутая разработка на C# и .NET

5 месяцев

Далее
Merion Academy

C# разработчик с нуля

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+2 ещё

Простой
Как заставить кнопки в ScrollView корректно перераспределять остальные элементы при анимации?
- 1 подписчик
- 10 апр.
- 69 просмотров
1

ответ
C#

Простой
Как прочесть без блокировок в многопоточном приложение 16 байт структурное значение?
- 1 подписчик
- 30 мар.
- 150 просмотров
1

ответ
C#

+1 ещё

Средний
Как убрать проблему, из-за которой карта не возвращается в руку?
- 1 подписчик
- 18 мар.
- 257 просмотров
1

ответ
C#

Средний
Как скачать видео из MAX с параметрами C# GET?
- 1 подписчик
- 14 мар.
- 331 просмотр
0

ответов
C#

+1 ещё

Простой
Как переопределить стиль WPF-компонентов из подключенной библиотеки?
- 1 подписчик
- 02 мар.
- 102 просмотра
1

ответ
Docker

+1 ещё

Простой
Что за файл такой docker-compose.yml?
- 1 подписчик
- 05 февр.
- 458 просмотров
2

ответа
C#

Средний
Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?
- 3 подписчика
- 29 янв.
- 255 просмотров
1

ответ
C#

+1 ещё

Простой
Проблемы с VSIX приложением — как заставить работать?
- 3 подписчика
- 25 янв.
- 261 просмотр
1

ответ
C#

+1 ещё

Простой
Как делать провода в юнити без лишних выпендриваний?
- 1 подписчик
- 24 янв.
- 342 просмотра
2

ответа
C#

+1 ещё

Простой
Почему ругается на команду Exit в CommandBinding?
- 2 подписчика
- 18 янв.
- 154 просмотра
1

ответ
Показать ещё Загружается…

C# Developer (WinForms + SQL)

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

Разработчик С# (User Interface, WPF)

Macroscop • Пермь

от 120 000 ₽

Программист микроконтроллеров (г. Ижевск, офлайн)

АО «Ижевский радиозавод» • Ижевск

До 140 000 ₽

Где-то видел статью с кодом на JS: то ли на Хабре, то ли ещё где-то. Там на входе была строка, а на выходе - ориентировочная дата события (ведь не всегда точно получается).
Если вспомню - напишу.

Answer 1 · 2017-07-16 00:12:46

Как вариант, мне приходит взять строку, сверить её с требуемой строкой посимвольно.
Если символ совпадает с символом искомой строки, ставим единичку, нет ставим 0. Если набирается какой-то процент от исходной фразы, то мы принимаем её.

Чем осуществить нечеткий поиск ключевых фраз в тексте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт