Коллеги, обращаюсь к вам за помощью. Имеем несколько тысяч предложений, среди них необходимо сгруппировать схожие по семантике. Как я вижу это сейчас: я разбиваю все предложения на слова, убираю служебные части речи, стемматизирую их и нахожу для каждого ключ soundex. Далее по этим кодам как-то нужно найти наиболее схожие предложения. Именно с последним этапом у меня сложности. Голова кипит. Буду рад подсказке куда копать дальше или другим идеям для реализации этого