Мой датасет выглядит вот так:
sentence emotions
bla bla bla {'kind':105, 'sad':32, 'angry':5}
..... {'surprised': 65, 'kind': 10}
То есть, каждый пост имеет несколько эмоции например: kind:158, smile:32, angry:5 ...
Цифры рядом с эмоциями это количество людей у которых были вызваны данные эмоции.
По сути, моя цель - предсказать тип эмоций, которые может вызвать пост. и я собираюсь использовать трансформатор BERT с Deep Pavlov
Вопрос: Как быть в данном случае? Нормально ли давать BERTу данные в таком формате? Или лучше убрать цифры? или же оставить только ту эмоцию которое набрал максимальное количество голосов? у кого был похожий опыт, поделитесь пожалуйста.