Суть такая: мне нужно написать простую нейросеть, которая будет кластеризировать описания игр по жанрам, используя алгоритм c-means из библиотеки skfuzzy. Я использую предобученную модель BERT. У меня есть собранный dataframe, у которого есть поля id, genres, name, summary. Ключевые поля тут genres (жанры) и summary (описание). Там 1000 объектов.
Теперь сам вопрос: мне нужно, чтобы нейросеть научилась определять максимум 3 возможных жанра у одной видеоигры по её описанию, но я не совсем понимаю, как это сделать. Я понял, что каждый кластер это отдельный жанр, всего таких будет 23. Но мне не понятно, как надо подготовить данные до их токенизации. Самый банальный вариант, это разбить на 23 кластера и дать нейросети их случайно распределить, но что делать после этого не совсем представляю, только начал этим заниматься.