Я экспериментировал с выборкой по фроду
отсюда.
Выборка состоит из 284807 транзакций из которых 497 это один класс, остальные - другой. То есть соотношение 0.172%.
На лицо задача на несбалансированных классах, я хотел проверить как работает простой рандомный андерсэмплинг. Я разбил выборку на 20 частей, и проверял через площадь под кривой precision-recall.
Начал с линейной регрессии, тут всё очевидно (андерсемплинг помогает, но примерно на половине выкинутого получаем оптимальный результат как по precision так и по recall):
Довольно странная ситуация с деревьями решений:
Тут ощущение, как будто деревья отлично справляются с несбалансированными классами (с порога получаем прекрасный recall). Более того, если выборку не трогать - то показатели плохие, но стоит рандомно взять из выборки хотя бы на 1 транзакцию меньше - метрики подскакивают. Почему так происходит?