Как сделать нечёткую кластеризацию текстов?

Question

Goblin1101 @Goblin1101

Как сделать нечёткую кластеризацию текстов?

Суть такая: мне нужно написать простую нейросеть, которая будет кластеризировать описания игр по жанрам, используя алгоритм c-means из библиотеки skfuzzy. Я использую предобученную модель BERT. У меня есть собранный dataframe, у которого есть поля id, genres, name, summary. Ключевые поля тут genres (жанры) и summary (описание). Там 1000 объектов.

Теперь сам вопрос: мне нужно, чтобы нейросеть научилась определять максимум 3 возможных жанра у одной видеоигры по её описанию, но я не совсем понимаю, как это сделать. Я понял, что каждый кластер это отдельный жанр, всего таких будет 23. Но мне не понятно, как надо подготовить данные до их токенизации. Самый банальный вариант, это разбить на 23 кластера и дать нейросети их случайно распределить, но что делать после этого не совсем представляю, только начал этим заниматься.

Вопрос задан более двух лет назад
351 просмотр

2 комментария

Подписаться 2 Средний 2 комментария

Goblin1101 @Goblin1101 Автор вопроса

Немного поясню. В тех примерах, что я смотрел, тот фрагмент, который нужно определить был частью обрабатываемых данных, например было описание статьи, и самый первый столбец информации содержал её "настроение" в виде 1 или 0. И именно это значение также кодировалось и маскировалось. Но я не могу понять, можно ли также поступить, если у меня предугадываемое значение по сути является списком. Возможно можно через explode список развернуть чтобы у каждой игры было по несколько записей с разными жанрами, но в таком случае я боюсь что такие объекты будут считаться разными и не учитываться при кластеризации, то есть будет несколько объектов с одинаковыми id и описаниями,

Написано более двух лет назад
Valeri Tsvetkov @suppcolor

Goblin1101, попробуйте самое сначала первое, что приходит в голову, развернуть список и сделать горячее кодирование каждого жанра в 0 или 1. Да, описания будут повторяться! Обучить модель задаче мультиклассовой классификации, а на выходе, например, softmax функция, которая даст вам вероятность для каждого класса. Тогда, как результат берете 3 самых вероятных класса по мнению модели.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
Бруноям

ИИ-агенты и n8n

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- вчера
- 73 просмотра
1

ответ
Нейронные сети

Простой
Как решить проблему с генерацией видео в Kling AI?
- 1 подписчик
- 09 июл.
- 79 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 152 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 74 просмотра
1

ответ
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 290 просмотров
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 407 просмотров
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 247 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 199 просмотров
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1294 просмотра
9

ответов
Показать ещё Загружается…

Немного поясню. В тех примерах, что я смотрел, тот фрагмент, который нужно определить был частью обрабатываемых данных, например было описание статьи, и самый первый столбец информации содержал её "настроение" в виде 1 или 0. И именно это значение также кодировалось и маскировалось. Но я не могу понять, можно ли также поступить, если у меня предугадываемое значение по сути является списком. Возможно можно через explode список развернуть чтобы у каждой игры было по несколько записей с разными жанрами, но в таком случае я боюсь что такие объекты будут считаться разными и не учитываться при кластеризации, то есть будет несколько объектов с одинаковыми id и описаниями,
Goblin1101, попробуйте самое сначала первое, что приходит в голову, развернуть список и сделать горячее кодирование каждого жанра в 0 или 1. Да, описания будут повторяться! Обучить модель задаче мультиклассовой классификации, а на выходе, например, softmax функция, которая даст вам вероятность для каждого класса. Тогда, как результат берете 3 самых вероятных класса по мнению модели.

Answer 1 · 2024-05-26 20:26:47

Тебе нужно во первых поставить задачу в терминологии векторов (VectorDb, spark.mlib, pandas).
По сути надо сделать top 3 максимально близких жанровых вектора к текстовому описанию игры.

SELECT 
 distance(v_genre, v_game) as dist, genre, game 
FROM
 genres, games
.....
 (select top 3 by dist for each game)

Как сделать нечёткую кластеризацию текстов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт