Какие есть библиотеки для оценки «похожести» текстов?
Лучше всего на java или каком-нибудь jvm языке.
Я новичок в анализе текстов, поэтому не уверен, как правильно сформулировать то, что надо.
Например, вот два названия товара:
HP 728 300-ml Cyan DesignJet Ink Cartridge
Hp 728 - Cyan - Original - Designjet - Blækpatron
Нужен инструмент, который с более-менее высокой вероятностью сможет понять, что это об одном и том же.
В целом задача такая: есть два списка названий, по-разному сформулированных, нужно найти соответствия между элементами списков.
Я пробую что-то изобретать, но получается медленно и много ошибок. Вот, подумал, может, есть какое-нибудь готовое решение?