Как решить задачу классификации в дисбалансном датасете через поиск аномалии?

Question

Guywithinterest @Guywithinterest

Машинное обучение

Как решить задачу классификации в дисбалансном датасете через поиск аномалии?

Проблема такая: классы, которые надо предсказывать, в реальной жизни (тестовом сете) имеют дикий дисбаланс: 99% против 1%.

Тренировочный сет имеет 350к записей класса-меньшинства и 13 миллионов записей класса-большинства.

Идеально нужно получить модель, которая может предсказать меньшинство с precision >=90% и recall'ом более 50%. Как такого достичь, и как задачу вообще решить?

Сколько данных большинства использовать? Применять ли SMOTE к меньшинству (я отказываюсь от этого, т.к. данные в меньшинстве обозначают две противоположные друг другу крайности: условно, класс большинства - это 0, а данные из класса меньшинства - это -1 и 1)? Какой объем данных из большинства брать (больше, чем с тремя миллионами память отказывается работать)? Какие алгоритмы брать (пробовал разные ensemble алгоритмы, SVM и т.д., но результаты у всего одинаковые)?

Как бы вы решали эту задачу? Есть ли какие-то необычные, но мощные техники в достижении таких точности и отзыва?

Вопрос задан более двух лет назад
226 просмотров

1 комментарий

Подписаться 3 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 2

4 комментария

Guywithinterest @Guywithinterest Автор вопроса

Спасибо, но решению это не помогает. Я это все читал, все пробовал. Есть даже соревнование на Kaggle - https://www.kaggle.com/competitions/anomaly-class-... - и больше 20% точности 30% реколла никто для класса-меньшинства не достиг пока что.

Написано более двух лет назад
dmshar @dmshar

Странно, если вы все это читали, все(?!) перепробовали (!), даже знаете про максимальною точность, которую удалось достигнуть на Kaggle (хотя что-либо предсказывать на Форекс или бирже - само по себе занятие очень сомнительное в виду особенностей природы соответствующих временных рядов, но то такое) - и вдруг задаете на Хабре вопрос, а кто может лучше, или кто обладает тайными знаниями, неведомыми мировому сообществу. Интересный подход. Удачи в поиске.
P.S. Судя по вопросу, все-таки смею предположить, что вы либо не все читали, либо не во всем разобрались. На самом деле - не все так трагично, иначе не удавалось бы работать ни с теми самыми мошенничествами в банке, ни с диагностикой в медицине (ваши 350K против 13000К - это примерно 1:30. В медицине при постановке диагнозов некоторых болезней все куда грустнее, 1:100 и даже 1:1000 никого не удивишь, и нечего, работают и довольно успешно в последние годы.), ни с выявлением вторжений в компьютерных сетях, где дисбаланс еще круче, ни в том-же маркетинге, где отношение купивших к некупившим иногда измеряется долями процента. В любом случае - решения есть и они работают. Только вот надо разобраться и самому найти тот, который подойдет именно к вашему датасету, учитывая его природу и особенности. Тут уж вам никто не поможет. А шанс найти чудо-мега-крутые технологии путем опроса заседателей Хабр - вот он точно мизерный.
Удачи!

Написано более двух лет назад
Guywithinterest @Guywithinterest Автор вопроса

dmshar, спасибо. Понимаю, но пытаюсь использовать все средства.

Написано более двух лет назад
dmshar @dmshar

Да, что-то я пропустил. Вот порылся в своих архивах:
https://neurohive.io/ru/novosti/metod-klassifikaci...
Разработан новый алгоритм классификации без отрицательных данных в датасете.
Это покруче, чем ваши 3% или даже 1%.
Чем не " необычная но мощная техника"?

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 263 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 135 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 274 просмотра
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 92 просмотра
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 106 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 745 просмотров
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 172 просмотра
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 764 просмотра
2

ответа
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Если нет кода python, не ставьте тэг python.

Answer 1 · 2023-07-14 12:20:25

Вообще-то задача распространенная, можно сказать абсолютно традиционная. Ничего сверхестественного:
https://machinelearningmastery.com/imbalanced-clas...
https://towardsdatascience.com/imbalanced-data-in-...
https://machinelearningmastery.com/tour-of-evaluat...
https://newtechaudit.ru/algoritm-balansirovki-klas...
https://www.analyticsvidhya.com/blog/2023/01/pract...
https://alexanderdyakonov.wordpress.com/2021/05/27...
https://towardsdatascience.com/how-to-deal-with-im...
forum.disser.ru/index.php?act=attach&type=post&id=2340
https://dataaspirant.com/handle-imbalanced-data-ma...
Тут есть все - и теория, и алгоритмы и реализации (как правило - на Python). Далее - по ссылкам. И совет - хотите изучать Мachine Learning - начните с освоения методов поиска информации. Хотя-бы в Гуугле. Все лежит на поверхности!

Answer 2 · 2023-12-16 22:04:27

Я бы для начала сбалансирован набор до 50/50%. Если на таком балансе достигаются приемлемые результаты но на исходном балансе модель не даёт приемлемых результатов - дообучать модель постепенно меняя баланс к необходимому.

Как решить задачу классификации в дисбалансном датасете через поиск аномалии?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт