asyaevloeva
@asyaevloeva

Какая МЛ модель лучше подходит чтобы находить похожие названия (похожие не по смыслу)?

У меня есть очень много названий (['American shop', 'USA store', 'Amer1c4n sh0p', ...]
и мне нужно закодировать в вектора которые помогут найти ближайшие названия по написанию, а не по смыслу. Как я понимаю word2vec и прочие модели помогают связать слова именно по смыслу, и ближайшими окажутся 'American shop', и 'USA store', а не 'American shop' и 'Amer1c4n sh0p'

Я пробовала использовать glove:

model = KeyedVectors.load_word2vec_format('glove.6B.50d.w2vformat.txt', binary=False)
weights = torch.FloatTensor(model.vectors) 
embeds = nn.Embedding.from_pretrained(weights)
encoded_name = embeds(lookup_tensor)


но это не работает (?)
  • Вопрос задан
  • 193 просмотра
Пригласить эксперта
Ответы на вопрос 2
AshBlade
@AshBlade
Просто хочу быть счастливым
Это называется стиль leet - https://ru.wikipedia.org/wiki/Leet
Тут даже ML модель не нужна, алгоритм простой:
1. Переводишь из leet в нормальный язык -> простая замена символов
2. Нормализуешь
3. Находишь расстояние хэмминга
Ответ написан
Griboks
@Griboks
Нечёткий поиск
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы