Какой поисковый движок опознает «икра красная» и «красная икра» как дубликаты?

Допустим, в БД mysql/postgresql имеются дубликаты одних и тех же выражений/терминов в колонке product_name. Как можно выявить такие дубликаты?
Расстояние Левенштейна не поможет. Какие ещё есть варианты?
  • Вопрос задан
  • 1393 просмотра
Решения вопроса 1
2ord
@2ord Автор вопроса
Набросал простенькую реализацию на языке Ruby для нахождения идентичных строк - дубликатов наименований.
Simple function for fuzzy string match
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
al_gon
@al_gon
н-грамы и коеффециенты.
https://en.wikipedia.org/wiki/S%C3%B8rensen%E2%80%...

https://toster.ru/answer?answer_id=908115#comments...

https://en.wikibooks.org/wiki/Algorithm_Implementa...

Для тех кому интересно, как это бывает если это отдельный сервис www.findologic.com/ru/features
Они из австрии и на странице много маркетингового "блаблабла". Но есть и интересные моменты.
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы