WatsOne
@WatsOne
Java/Android developer

Почему андерсэмплинг не работает для деревьев решений?

Я экспериментировал с выборкой по фроду отсюда.
Выборка состоит из 284807 транзакций из которых 497 это один класс, остальные - другой. То есть соотношение 0.172%.
На лицо задача на несбалансированных классах, я хотел проверить как работает простой рандомный андерсэмплинг. Я разбил выборку на 20 частей, и проверял через площадь под кривой precision-recall.
Начал с линейной регрессии, тут всё очевидно (андерсемплинг помогает, но примерно на половине выкинутого получаем оптимальный результат как по precision так и по recall):
c21323fe83264f29a8005ab12d3144f5.png

Довольно странная ситуация с деревьями решений:
1fb27d139f884d3ebf595338873e1712.png

Тут ощущение, как будто деревья отлично справляются с несбалансированными классами (с порога получаем прекрасный recall). Более того, если выборку не трогать - то показатели плохие, но стоит рандомно взять из выборки хотя бы на 1 транзакцию меньше - метрики подскакивают. Почему так происходит?
  • Вопрос задан
  • 295 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы