Что делать с экстремально дисбалансным датасетом?

Question

Guywithinterest @Guywithinterest

Что делать с экстремально дисбалансным датасетом?

Передо мной стоит задача классификации с тремя классами и чрезвычайно дисбалансным датасетом.

Распределения в тестовом и тренировочном сетах такие:

Тестовый набор данных полностью отражает реальное распределение данных из жизни, поэтому он ценен для честной оценки модели. В нем лежат :
113 тыс. выборок класса 2,
900 выборок класса 1
240 выборок класса 0.

Тренировочный набор данных содержит:
1 миллион выборок класса 2,
262 тыс. выборок класса 1
102 тыс. выборок класса 0.

Веса классов из тестового сета который имеет распределение из реальной задачи из реальной жизни, равны:
{2: 0.33674243092169065, 1: 41.56039173014146, 0: 158.4813278008299}

Я знаю обо всех известных техниках и методиках, и перепробовал очень многое:

- оверсемплил SMOTE'ом и обучал на распределении 1 к 1 с миллионом сэмплов для каждого класса
- использовал обучение с весами из тренировочного класса
- даунсемплил самый большой класс 2
- пробовал разные модели, вроде Random Forest, XGBoost, AdaBoost, Decision Tree и другие.

И попробовав и перепробовав все, я получил максимум такие результаты:

Они меня не устраивают. Как эту задачу решить?

Вопрос задан более двух лет назад
222 просмотра

2 комментария

Подписаться 3 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

2 комментария

Guywithinterest @Guywithinterest Автор вопроса

Спасибо за советы! Отвечу по порядку.

1) Про распределение. Целиком тренировочный датасет имеет 14 миллионов сэмплов класса 2 и 262к класса 1 и 102к класса 0. В память подобное банально не помещается, поэтому я просто каждый раз беру рандомный миллион (пробовал и 2, и 3, разница не менялась) и все сэмплы классов 1 и 0. Тест сет - это пример уже из реальной задачи из реальной жизни. Там распределение такое, и думаю, есть смысл на нем модель и оценить. Ну, собственно, а как иначе. Вот она уже - реальная задача с реальным примером - и если на нем модель проваливается, то грошь ей цена.

2) Про решаемость и оценку. Если я беру примерно одинаковое распределение на тренировочном, а затем из него же создаю тестовый, то модель вполне себе все различает, о чем говорят результаты:

precision recall f1-score support

0 0.83 0.77 0.80 20367
1 0.81 0.85 0.83 52398
2 0.86 0.85 0.85 59558

accuracy 0.83 132323
macro avg 0.83 0.82 0.83 132323
weighted avg 0.83 0.83 0.83 132323

Написано более двух лет назад
rPman @rPman

повторяю вопрос про проверку на переобученность - какие результаты не на тестовой выборке а на обучающей?
p.s. 0.83 разве плохо?

вот эта сетка на тестовых которые не из обучающей выборки какие выдает? если сильно хуже то это значит сеть переобучилась, выкидывать и думать дальше

уменьшай сложность сети, попробуй построить сеть на меньшем количестве признаков, попробуй инициализировать веса на основе другой сети (обучи сеть бутылочное горлышко, где входные данные равны выходным, а затем за основу возьми часть до этого меньшего слоя как основу весов своей итоговой сети, есть другие способы, просто этот можно обучить на неразмеченых данных, сеть может понять все для себя про них сама, и уже на основе этого понимания можно пытаться учить ее дальше своим задачам)

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 282 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 135 просмотров
3

ответа
Аналитика

+1 ещё

Средний
Как быстро локализовать в логах источник изменений метрики?
- 1 подписчик
- 30 июн.
- 87 просмотров
0

ответов
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 279 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 93 просмотра
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 106 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 753 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 174 просмотра
1

ответ
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

А во вторых непонятно что такое честная оценка модели? Ты привел две гистограммы и одна из них явно ошибочная. Потому что сильно большие различия. Такого быть не должно. Ты делал shuffle для всей совокупности?
mayton2019, ты про различия в тест сете и трейнинг сете? Полный трейнинг сет - это 14 миллионов экземпляров класса 2 + те же значения у классов 0 и 1. Использовать его весь я не вижу ни смысла, ни возможности: он банально не помещается в память при обучении

Answer 1 · 2023-06-25 11:41:04

1. Метрики используй либо ROC, а лучше матрицу ошибок классификации (confusion matrix). Тебе здесь необходимо смотреть в сторону байесовых интерпретации теории вероятности.

2. Не один из методов работы с выборками не гарантирует решения проблемы. (Что не означает что от них надо отказаться, я бы попробовал сгенерировать дополнительные данные)

3. Посмотри в сторону алгоритмов "детекции аномалий". Из известных алгоритмов SVM может быть использован ну у них есть и свои более специализированные (даже для медицины свои бывают). гугли anomaly detection classification python или на чем ты там реализуешь и изучай. Это большая тема в машинном обучении и вообще отдельный навык и например какой то датасаентист может фокусироваться только на детекции аномалий.

Ты наверное знаешь в теории вероятностей есть Bayes байесова интерпретация (мы смотрим на вероятность как степень уверенности) и что называется Frequentism мы смотрим на вероятность как частоту на длинной дистанции. Так вот тебе нужно смотреть в сторону байесовой здесь, как по метрикам так и по алгоритмам. Алгоритмы детекции аномалий я в контексте данного вопроса так же отношу к ним.

Что касается твоих замечаний, то ты прав. Модель имеет сильную предрасположенность, что мешает обучению. Собственно я по этому и дал советы выше.

Answer 2 · 2023-06-25 12:00:59

А задача в принципе решаема? На обучающих данных какие оценки дает? нет ли признака переобученности для классов 0 и 1? (т.е. для оубчающей выборки там будут большие значения а на тестовой маленькие). Уменьши размерность сети.

Покажи отчет обучения на сокращенной выборке по классу 2 раза в 3 чтобы объем был сравним с другими классами.

Еще вариант - определи веса class_weight для несбалансированного класса, чем больше размер тем меньше вес.

Еще, не понимаю почему твои тесты имеют другое распределение, плюнь на текущее распределение train/test и случайно выбери из train распределения тестовую часть (или задай validation_split и shuffle=True) и заново проведи обучение. Соотношение примеров по каждым классом сделай равным (т.е. если количество примеров 2 в три раза больше чем для 1+0, значит то же самое и в тестовой выборке должно быть)

p.s. еще гуглится (вернее сказать Бинго-чатится) MetaBalance, автоматически тюнит глобальные параметры и функцию потерь как раз на несбалансированные классы

p.p.s. от себя добавлю, попробуй построй ансамбль сетей, обучи сетку которая ищет только два класса - это большой класс 2 и а другой класс - все остальные 0+1 (он уже будет не такой несбалансированный), затем отдельно обучи сетку на данных состоящих только из классов 0+1 на их выявление, т.е. вместо одной сети у тебя будет две - первая выделит несбалансированный класс, вторая на основе ее результата - будет уже выявлять подклассы 0-1

Что делать с экстремально дисбалансным датасетом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт