@Goblin1101

Как сделать нечёткую кластеризацию текстов?

Суть такая: мне нужно написать простую нейросеть, которая будет кластеризировать описания игр по жанрам, используя алгоритм c-means из библиотеки skfuzzy. Я использую предобученную модель BERT. У меня есть собранный dataframe, у которого есть поля id, genres, name, summary. Ключевые поля тут genres (жанры) и summary (описание). Там 1000 объектов.
6652df98bf0f6502964228.png
Теперь сам вопрос: мне нужно, чтобы нейросеть научилась определять максимум 3 возможных жанра у одной видеоигры по её описанию, но я не совсем понимаю, как это сделать. Я понял, что каждый кластер это отдельный жанр, всего таких будет 23. Но мне не понятно, как надо подготовить данные до их токенизации. Самый банальный вариант, это разбить на 23 кластера и дать нейросети их случайно распределить, но что делать после этого не совсем представляю, только начал этим заниматься.
  • Вопрос задан
  • 312 просмотров
Пригласить эксперта
Ответы на вопрос 1
mayton2019
@mayton2019
Bigdata Engineer
Тебе нужно во первых поставить задачу в терминологии векторов (VectorDb, spark.mlib, pandas).
По сути надо сделать top 3 максимально близких жанровых вектора к текстовому описанию игры.
SELECT 
 distance(v_genre, v_game) as dist, genre, game 
FROM
 genres, games
.....
 (select top 3 by dist for each game)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы