Какая МЛ модель лучше подходит чтобы находить похожие названия (похожие не по смыслу)?

Question

Ася @asyaevloeva

Какая МЛ модель лучше подходит чтобы находить похожие названия (похожие не по смыслу)?

У меня есть очень много названий (['American shop', 'USA store', 'Amer1c4n sh0p', ...]
и мне нужно закодировать в вектора которые помогут найти ближайшие названия по написанию, а не по смыслу. Как я понимаю word2vec и прочие модели помогают связать слова именно по смыслу, и ближайшими окажутся 'American shop', и 'USA store', а не 'American shop' и 'Amer1c4n sh0p'

Я пробовала использовать glove:

model = KeyedVectors.load_word2vec_format('glove.6B.50d.w2vformat.txt', binary=False)
weights = torch.FloatTensor(model.vectors) 
embeds = nn.Embedding.from_pretrained(weights)
encoded_name = embeds(lookup_tensor)

но это не работает (?)

Вопрос задан более года назад
241 просмотр

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

Ася @asyaevloeva Автор вопроса

как я понимаю это лишь для случая с заменой латинских букв на похожие цифры. я наверное привела не полный пример - в моем случае это могут быть такие случаи, либо любые другие (ака ошибки в написании, лишние буквы и слова)

Написано более года назад
Ася @asyaevloeva Автор вопроса

нужно чтобы модель находила похожие по написанию названия, несмотря на ошибки/стиль лиит/добавочные символы

Написано более года назад
Сергей Соловьев @AshBlade

В любом случае, тут больше подходит расстояние хэмминга (либо в комментах сказали про левенштейна).
На мой взгляд, это больше подойдет, т.к. дело ведется с ошибками ввода:
- Можно в любой момент увеличить словарь и находить (+ исправлять) больше ошибок
- Скорость работы в разы быстрее
- Можно нормально распараллелить

Нейронная сеть здесь - лишнее.

Написано более года назад
Ася @asyaevloeva Автор вопроса

Сергей Соловьев, не получится так просто "увеличить словарь и находить (+ исправлять) больше ошибок" потому что датасет из 5млн названий

Написано более года назад
Сергей Соловьев @AshBlade

Ася, и? 5 млн норм. для больших потребностей - большие требования

Написано более года назад
fenrir @fenrir1121

Ася,
нужно чтобы модель находила похожие по написанию названия, несмотря на ошибки/стиль лиит/добавочные символы

Если специфические условия, которые меняются на ходу, значит тренируете стою модель на своих же данных. Датасета в 5млн более чем достаточно чтобы сделать выборку.

Все зависит от постановки, я скажем не понимаю что значит "несмотря на ошибки". Если, я написал "XYZ", но сделал в слове 3 ошибки, это приемлемо? Вы можете математически описать что вы ожидаете? А осознаёте что модель при предсказаниях может ошибаться и не факт, что будет работать лучше обычного нечёткого поиска?

Написано более года назад
mayton2019 @mayton2019
(['American shop', 'USA store', 'Amer1c4n sh0p', ...]

Если в обучающей выборке процент неправильных слов будет больше чем правильных, тогда
сеть сойдется к неправильному базису и все Американ Шопы превратятся в Am3rikAn 5h0p.

Такое вот оно, самообучение.
Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 168 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 220 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 147 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 119 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 253 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 137 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 260 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Я не знаю что такое glove. Но есть функция Левенштейна которая кодирует редакционное
расстояние между словами. Например между Amer1c4n и American будет какое - то количество
редакций. Например замена двух символов == 2. И если создать справочник эталонных
слов и слов с ошибками то предварительной обработкой сырого датасета можно
свести ошибочные слова к правильным а дальше уже искать твоим алгоритмов фразы и сентенсы.

Answer 1 · 2023-12-07 13:58:29

Это называется стиль leet - https://ru.wikipedia.org/wiki/Leet
Тут даже ML модель не нужна, алгоритм простой:
1. Переводишь из leet в нормальный язык -> простая замена символов
2. Нормализуешь
3. Находишь расстояние хэмминга

Answer 2 · 2023-12-07 16:36:50

Griboks @Griboks

Нечёткий поиск

Ответ написан более года назад

Комментировать

Какая МЛ модель лучше подходит чтобы находить похожие названия (похожие не по смыслу)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт