Алгоритм поиска совпадений фраз по словарям. Как эффективно найти то, что имел ввиду пользователь?

Question

frzq @frzq

Алгоритмы

Алгоритм поиска совпадений фраз по словарям. Как эффективно найти то, что имел ввиду пользователь?

Исходные данные:
Словарь A - фразы согласия (да / конечно / пожалуйста и т.д.)
Словарь B - фразы несогласия (нет / не нужно т.д.)
Словарь C - фразы занятости (нет времени, я занят, пожалуйста позже и т.д.)
Словарь D - фразы повтора (повторите, не расслышал и т.д.)

Словарь хранится в XML в соответствующих тегах. Сейчас алгоритм загружает XML и когда на вход подаётся фраза например "Пожалуйста позже" он вернёт совпадение из словаря А, потому что там есть фраза "пожалуйста", а должен был из словаря C. Иными словами возвращает первое попашееся совпадение слова из фразы. Вижу выход из ситуации с помощью подсчёта количества символов во фразе пришедшей на вход и в обнаруженных совпадениях и возвращать то, в чём больше символов, но словари тогда надо растить бесконечно. В них буквально должно быть максимум фраз.

Вопрос задан более трёх лет назад
368 просмотров

1 комментарий

Подписаться 3 Сложный 1 комментарий

Решения вопроса 1

4 комментария

frzq @frzq Автор вопроса

Ищите все подходящие варианты, назначайте им вес в зависимости от того, насколько полное совпадение с фразой. Затем по весу выбирайте один вариант

Тогда словарь надо бесконечно наполнять фразами. Вес можно назначать по совпадающим символам во фразе, где больше совпало в нужном порядке, то и брать, но это надо добавлять все возможные фразы.

В идеале на вес еще и предыдущие сообщения могут влиять.
Поясните пожалуйста.

Написано более трёх лет назад
Stalker_RED @Stalker_RED

frzq, например фраза "повторите пожалуйста" попадает сразу под два словаря, но вы можете слову "повторите" назначить более высокий вес.

про предыдущие - само по себе слово "пожалуйста" может означать самые разные штуки

отправьте мне цены на продукцию
пожалуйста

я занят, перезвоните позже
пожалуйста

задолбал ваш тупой бот
не пишите мне больше никогда
пожалуйста

по одному последнему слову получите ложные срабатывания, но анализируя предыдущие сообщения можно попытаться понять смысл.

Написано более трёх лет назад
frzq @frzq Автор вопроса

Stalker_RED, т.о. из вашего ответа я понял, что вы предлагаете каждому слову назначать определенный вес, не фразе в целом, а слову. Ок, приходит фраза "Повторите, пожалуйста", у "Повторите" вес будет больше, чем у одинокого пожалуйста и логика поменяется в нужную сторону. Т.е. нужны получается не словари готовых фраз, а хэш таблица слов с ключами в виде веса и анализировать надо не фразу, а каждое слово в отдельности ?

Написано более трёх лет назад
Stalker_RED @Stalker_RED

frzq, я не навязываю вам конкретное техническое решение, т.к. слабо понимаю что вы делаете и зачем.
Вес можно давать не только словам, но и фразам, и даже кускам слов.

Вообще тема очень большая и сложная. Вот яндекс некоторые свои приемы описывал

https://habr.com/ru/company/yandex/blog/205198/
https://habr.com/ru/post/93641/
https://habr.com/ru/company/yandex/blog/219311/
https://habr.com/ru/company/yandex/blog/502542/
еще

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 121 просмотр
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 206 просмотров
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 154 просмотра
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 284 просмотра
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 475 просмотров
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 92 просмотра
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 129 просмотров
1

ответ
Алгоритмы

Простой
Какие переходы для ДП Codeforces Петя и пауки?
- 1 подписчик
- 27 мая
- 169 просмотров
1

ответ
Алгоритмы

Простой
Какую букву в игре поле чудес в этом случае лучше всего открыть? правильное ли это решение?
- 1 подписчик
- 20 мая
- 255 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 282 просмотра
1

ответ
Показать ещё Загружается…

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда сервисов телефонии

Яндекс • Москва

от 300 000 до 490 000 ₽

фраза "да нет, пожалуйста, повторите ваш звонок позже" - наверное разорвет ваш алгоритм на части
ИМХО "пожалуйста" это не согласие.

Answer 1 · 2020-08-27 12:16:06

Ищите все подходящие варианты, назначайте им вес в зависимости от того, насколько полное совпадение с фразой. Затем по весу выбирайте один вариант. В идеале на вес еще и предыдущие сообщения могут влиять.

Answer 2 · 2020-08-27 11:18:33

Простого решения нет.
Вот неплохая статья, возможно она вам покажет путь решения задачи.
https://m.habr.com/ru/post/341148/

Алгоритм поиска совпадений фраз по словарям. Как эффективно найти то, что имел ввиду пользователь?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт