Задать вопрос

WatsOne

Куликов Александр @WatsOne

Java/Android developer

машинное-обучение

Машинное обучение

Почему андерсэмплинг не работает для деревьев решений?

Я экспериментировал с выборкой по фроду отсюда.
Выборка состоит из 284807 транзакций из которых 497 это один класс, остальные - другой. То есть соотношение 0.172%.
На лицо задача на несбалансированных классах, я хотел проверить как работает простой рандомный андерсэмплинг. Я разбил выборку на 20 частей, и проверял через площадь под кривой precision-recall.
Начал с линейной регрессии, тут всё очевидно (андерсемплинг помогает, но примерно на половине выкинутого получаем оптимальный результат как по precision так и по recall):

Довольно странная ситуация с деревьями решений:

Тут ощущение, как будто деревья отлично справляются с несбалансированными классами (с порога получаем прекрасный recall). Более того, если выборку не трогать - то показатели плохие, но стоит рандомно взять из выборки хотя бы на 1 транзакцию меньше - метрики подскакивают. Почему так происходит?

Вопрос задан более трёх лет назад
297 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 50 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 268 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 90 просмотров
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 104 просмотра
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 91 просмотр
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 739 просмотров
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 171 просмотр
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 740 просмотров
2

ответа
Регулярные выражения

+2 ещё

Простой
Поиск оптимальной регулярки для бинарной классификации строк. Как?
- 1 подписчик
- 22 мар.
- 197 просмотров
1

ответ
Показать ещё Загружается…

Vortex • Москва

от 330 000 до 380 000 ₽

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $