Вообще здесь называть это лутше классификация текстов, а не кластеризация. Метрика "похожести", а не вероятностная оценка.
Хотя чисто в разговорном языке, я бы тоже сказал вероятность, того что документ относится к этому классу или категории, столько и столько.
Кластеры сначала нужно образовать, а Вы говорите о готовых категориях. Которые скорее обладают готовой помеченной коллекцией.
Вообще Вам сюда
https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B4%D...
и если у вас нет начальных категорий совсем, тогда сюда
citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1....