Верно отметили, что если метки для текста заданы, то это классификация. Советую начать с логистической регрессии и tf-idf (опционально, добавить биграммы и триграммы).
Если меток нет и хочется получить их заданное количество, то смотрите в сторону латентного размещения Дирихле или латентно-семантического анализа