Задать вопрос
AloneCoder
@AloneCoder
[object Object]

Помогите с алгоритмом по сравнению предложений

Коллеги, обращаюсь к вам за помощью. Имеем несколько тысяч предложений, среди них необходимо сгруппировать схожие по семантике. Как я вижу это сейчас: я разбиваю все предложения на слова, убираю служебные части речи, стемматизирую их и нахожу для каждого ключ soundex. Далее по этим кодам как-то нужно найти наиболее схожие предложения. Именно с последним этапом у меня сложности. Голова кипит. Буду рад подсказке куда копать дальше или другим идеям для реализации этого
  • Вопрос задан
  • 3524 просмотра
Подписаться 5 Оценить Комментировать
Ответ пользователя sergeypid К ответам на вопрос (4)
sergeypid
@sergeypid
Попробуйте просто k-means кластеризацию по вашим ключам. Только надо задать априори количество классов.
Ответ написан
Комментировать