Какой поисковый движок опознает «икра красная» и «красная икра» как дубликаты?
Допустим, в БД mysql/postgresql имеются дубликаты одних и тех же выражений/терминов в колонке product_name. Как можно выявить такие дубликаты?
Расстояние Левенштейна не поможет. Какие ещё есть варианты?
Александр Титов: Хороший пример!
Здесь накладывается семантика контекста.
Если человек в онлайн магазине в корневом каталоге, то да это не дублекаты. Надо выдовать всё.
Если человек в онлайн магазине в ветке "головные уборы", то спорно, почему нет. Клиент хочет "красная шапочка", давайте на выдачу "шапочки красные".
Для тех кому интересно, как это бывает если это отдельный сервис www.findologic.com/ru/features
Они из австрии и на странице много маркетингового "блаблабла". Но есть и интересные моменты.