Здравствуйте коллеги. У меня такой вопрос. Имеется датасет. В нем есть признаки(столбцы) бинарные. но в этих столбцах соотношение True к False не очень ровное. Например True 90% а False 10%. Как выровнять сразу по всем признакам эти данные? Добавив рандомно новые? В Studio ML есть такой инструмент называется SMOTE, но он работает только с одним признаком. Может быть есть какие то механизмы для pandas или numpy? Спасибо
Идея разбодяжить настоящие данные фейковыми, чтобы получить что-то толковое - это бредовая идея.
Инструменты для реализации бредовых идей можно подобрать, да.
Антон Тарара, а вот почему: если у вас есть разумная идея о том, как должны выглядеть реальные данные - значит, у вас фактически есть эвристика насчет того объекта, который вы моделируете. Вот и пилите эту эвристику, чем сетку натаскивать.
Если вы думаете научить чему-то толковому сеть на случайных фейковых данных - это таки бред.