Правильно ли я обучаю модель?

Question

Игорь Колонтарь @Kotsubid

Изучал front-end, теперь изучаю SQL/python

Правильно ли я обучаю модель?

Всем привет. Возникла необходимость сделать прототип модели. Модель должна предсказывать вероятность фрода(мошенничества) при выполнении заявок клиентов. В качестве данных для анализа - числа и булевы параметры (количество переназначений, является ли прочроченной и тд), которые, как я считаю, могут влиять на вероятность фрода. В azure загрузил выборку из 140 случаев подтвержденного фрода. После обучения модели и тестирования на той же выборке (соотношение 70/30) оценка модели показывает, что все значения true positive. Про тестировании модели на выборке в 30000 уже неизвестных заявок оценка модели сообщает, что все строки false positive. Прочитал много документации, перепробовал разные комбинации алгоритмов и выбираемых данных, но вменяемого результата получить не могу. Я понимаю, что данных для обучения пока очень мало и нужно хотя бы раз в 20 побольше. Но правильно ли я делаю и как правильно понять результаты? Я с такой маленькой выборкой для обучения вообще ничего не добьюсь, или я неправильно настраиваю модель в azure ml studio, и все таки что-то вменяемое можно получить хотя бы для сырого прототипа?
Алгоритм, который использовал последний раз - two classes boosted decision tree.
Буду благодарен хотя бы за комментарии от людей, которые тоже пробовали делать что -то такое. Спасибо!

Вопрос задан более трёх лет назад
410 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Решения вопроса 1

4 комментария

Игорь Колонтарь @Kotsubid Автор вопроса

Спасибо, попробую по-другому. Отпишусь.

Написано более трёх лет назад
Игорь Колонтарь @Kotsubid Автор вопроса

Что-то изменилось! Загнал туда одновременно 140 случаев фрода и 30000 остальных заявок. Правда True Positive только 27 значений (в идеале же 140 должно было быть?).
Если в оцененном датасете рядом с фродами вероятности стоят ближе к 100%, а рядом с другими значениями ближе к нулю, получается, все сделано верно?

Написано более трёх лет назад
vasiliev @vasiliev

Выходит, что модель уже что-то научилась обнаруживать. Процесс обнаружения вероятностный, и все 100÷ случаев фрода можно обнаружить только при большой вероятности ложной тревоги. У вас получается, что из 41 случая обнаружилось 27, а 14 - нет. При этом всего 4 ложных срабатывания на почти 10000 случаев остальных заявок. Вероятности справа относятся ко всему датасету в целом.

Для улучшения качества обнаружения можно пытаться настраивать модель, подбирать другие характеристики, увеличивать набор данных. Можно попробовать покрутить ползунок threshold справа, но, судя по ROC-кривой, больших успехов этим сейчас вы вряд ли добьётесь.

Если в остальных заявках тоже возможны случаи фрода, то стоит посмотреть на те, на которых алгоритм срабатывает, проверить их, и если это действительно фрод - перенести в правильный набор. В идеале вторая часть данных не должна содержать случаев фрода.

Написано более трёх лет назад
Игорь Колонтарь @Kotsubid Автор вопроса

Попробую. В любом случае спасибо, очень помогли!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 279 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 135 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 279 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 93 просмотра
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 106 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 753 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 174 просмотра
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 765 просмотров
2

ответа
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2017-05-06 09:42:02

Вы только примеры фрода отправили на обучение что ли, без примеров "не-фрода"? Надо и положительные, и отрицательные примеры отправлять для двухклассовой классификации. Объём данных желательно побольше, конечно, но и с небольшим объёмом корректных данных не должно быть таких результатов, как у вас.

Answer 2 · 2017-05-04 12:11:47

Данных должно быть явно больше. 140 - это ни очем.
Как вариант, можно нагенерить данные.
Берем каждую строку, и меняем один параметр. Т.о. из одной строки можно нагенерить 10-20 новых.
Но это так - метод в лоб.

Правильно ли я обучаю модель?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт