Какой метод кластеризации текстов лучше использовать при большом количестве тематик?

Интересны алгоритмы которые могут показать вероятностную оценку принадлежности к нескольким кластерам
"Label": "Science & Mathematics",
"Probability": 0.148,

"Label": "Astronomy & Space",
"Probability": 0.713

Есть у кого нибудь подобный опыт ?
  • Вопрос задан
  • 833 просмотра
Пригласить эксперта
Ответы на вопрос 2
al_gon
@al_gon
Вообще здесь называть это лутше классификация текстов, а не кластеризация. Метрика "похожести", а не вероятностная оценка.
Хотя чисто в разговорном языке, я бы тоже сказал вероятность, того что документ относится к этому классу или категории, столько и столько.

Кластеры сначала нужно образовать, а Вы говорите о готовых категориях. Которые скорее обладают готовой помеченной коллекцией.

Вообще Вам сюда https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B4%D...

и если у вас нет начальных категорий совсем, тогда сюда

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1....
Ответ написан
@Vlad_Fedorenko
Верно отметили, что если метки для текста заданы, то это классификация. Советую начать с логистической регрессии и tf-idf (опционально, добавить биграммы и триграммы).
Если меток нет и хочется получить их заданное количество, то смотрите в сторону латентного размещения Дирихле или латентно-семантического анализа
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы