Всем привет!
Есть 100500 заголовков объявлений, необходимо разбить эти объявления на непересекающиеся группы. То есть перед нами стоит задача кластеризации. Считаем для простоты, что у нас в заголовке только значимые слова, нет глаголов, нет орфографических ошибок. Длина заголовка от одного до шести слов.
Есть ли готовый софт для этого? Есть ли готовые реализации алгоритмов на дотНет? Eсть ли подробные описания алгоритмов именно для такой кластеризации?
Подскажите какие волшебные слова вбить в гугл.
Смотря что вы хотите от кластеризации, можно например создать самому группы объявлений, накидать группы ключевых слов и раскидать по ключевикам в группы объявления.
Можно пойти от обратного, сравнивать заголовки на похожесть и уже сортировать от этого параметра в группы.
Вроде бы все изучают в школе и в универе на информатике.