Какой метод кластеризации текстов лучше использовать при большом количестве тематик?

Question

MIsternik @MIsternik

Какой метод кластеризации текстов лучше использовать при большом количестве тематик?

Интересны алгоритмы которые могут показать вероятностную оценку принадлежности к нескольким кластерам
"Label": "Science & Mathematics",
"Probability": 0.148,

"Label": "Astronomy & Space",
"Probability": 0.713

Есть у кого нибудь подобный опыт ?

Вопрос задан более трёх лет назад
842 просмотра

3 комментария

Подписаться 11 Оценить 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

al_gon @al_gon

Метрика "похожести"=степень подобия

Написано более трёх лет назад
MIsternik @MIsternik Автор вопроса

На сколько я понимаю, классификация производится по уже известным категориям, а было бы неплохо, если бы при появлении новых тематик они выделялись в новые категории.

ИЗ классификации я пробовал Random Forest, но при большом количестве категорий (не помню уже сейчас от скольких ) у него сильно падает точность.

Сейчас буду пробовать Latent Dirichlet allocation и Linear discriminant analysis.

Написано более трёх лет назад
coolakov @coolakov

MIsternik: > было бы неплохо, если бы при появлении новых тематик они выделялись в новые категории.
И чтоб названия для новых категорий сам придумывал бы, да? И чтоб пылесосил и кофе варил.
Хорошо бы, но так не бывает.

Написано более трёх лет назад
MIsternik @MIsternik Автор вопроса

coolakov: т.е. вы хотите сказать при кластеризации новые темы не будут выделяться ? Уверены?

Написано более трёх лет назад
coolakov @coolakov

MIsternik: выделять новые категории - без проблем. но вот давать им осмысленные названия вроде "Science & Mathematics" боюсь, лишь мечта.

Написано более трёх лет назад
MIsternik @MIsternik Автор вопроса

Ну это и ежу понятно, я про это и не писал.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MacBook

+2 ещё

Простой
Mac для машинного обучения, стоит ли брать?
- 1 подписчик
- 11 часов назад
- 115 просмотров
2

ответа
Математика

Простой
Опечатка или нет?
- 1 подписчик
- 17 июл.
- 99 просмотров
2

ответа
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 148 просмотров
2

ответа
Математика

Средний
Что такое отношения в предикатной логике?
- 1 подписчик
- 05 июл.
- 147 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 502 просмотра
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 113 просмотров
1

ответ
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 322 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 226 просмотров
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 515 просмотров
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 469 просмотров
1

ответ
Показать ещё Загружается…

А где брать начальное "дерево" признаков тематических кластеров (по тематикам)?
Что означает вероятность? (согласен с ответом al_gon)
По-моему это довольно очевидно из примера который я привел.

Answer 1 · 2016-12-19 22:20:28

Вообще здесь называть это лутше классификация текстов, а не кластеризация. Метрика "похожести", а не вероятностная оценка.
Хотя чисто в разговорном языке, я бы тоже сказал вероятность, того что документ относится к этому классу или категории, столько и столько.

Кластеры сначала нужно образовать, а Вы говорите о готовых категориях. Которые скорее обладают готовой помеченной коллекцией.

Вообще Вам сюда https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B4%D...

и если у вас нет начальных категорий совсем, тогда сюда

citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1....

Answer 2 · 2016-12-19 22:39:02

Верно отметили, что если метки для текста заданы, то это классификация. Советую начать с логистической регрессии и tf-idf (опционально, добавить биграммы и триграммы).
Если меток нет и хочется получить их заданное количество, то смотрите в сторону латентного размещения Дирихле или латентно-семантического анализа

Какой метод кластеризации текстов лучше использовать при большом количестве тематик?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт