Какой алгоритм использовать для нахождения соответствия между данными и словарем?

Question

pavel0staratel @pavel0staratel

Какой алгоритм использовать для нахождения соответствия между данными и словарем?

Данные и словарь представляют из себя наборы строк. В данных те же строки из словаря, но с опечатками, с перестановками слов, с лишними или недостающими словами и т.п.
Нужно составить соответствие - какой строке из словаря соответствует строка из данных.

Возможно стоит посмотреть в сторону алгоритмов машинного обучения. Тогда подскажите какого именно.

Вопрос задан более трёх лет назад
636 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

pavel0staratel @pavel0staratel Автор вопроса

Именно так я и пытался реализовать, с помощью питоновского пакета fuzzywuzzy. Хорошо работает с отдельными словами, исправляет опечатки. А вот на уровне целой строки пока не получается, так как нужно избавляться от лишних слов, не знаю как это сделать автоматически. Например как здесь:
Словарь:
Ой Ой Ой Смотрите большая белка (рыжая)
Рыжая Лиса с белым хвостом

Данные:
Смотрите! Ой, Рыжая лиса

Должно быть:
Смотрите! Ой, Рыжая лиса -> Рыжая Лиса с белым хвостом

Но по кол-ву совпадающих слов алгоритм выдает белку.

Написано более трёх лет назад
pavel0staratel @pavel0staratel Автор вопроса

Или еще варианты как хотелось чтобы было:
Смотрите большая собака -> не найдено
непонятная лиса с непонятным хвостом -> Рыжая Лиса с белым хвостом

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 228 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 287 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 203 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 206 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 176 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 343 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 182 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 166 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 194 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 190 просмотров
2

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Backend developer/ software engineer (Python) в команду DCIM

Яндекс • Москва

от 350 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2015-06-11 15:30:30

Как вариант, воспользоваться алгоритмами нечеткого поиска:
algolist.manual.ru/search/fsearch
habrahabr.ru/post/123320
habrahabr.ru/post/114997

Answer 2 · 2015-06-11 15:33:18

Сама реализация алгоритма: https://neil.fraser.name/software/diff_match_patch...
Diff-Match-Patch (версия для D). Версии для других языков можно взять тут

Какой алгоритм использовать для нахождения соответствия между данными и словарем?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт