Задать вопрос
@Kotsubid
Изучал front-end, теперь изучаю SQL/python

Правильно ли я обучаю модель?

Всем привет. Возникла необходимость сделать прототип модели. Модель должна предсказывать вероятность фрода(мошенничества) при выполнении заявок клиентов. В качестве данных для анализа - числа и булевы параметры (количество переназначений, является ли прочроченной и тд), которые, как я считаю, могут влиять на вероятность фрода. В azure загрузил выборку из 140 случаев подтвержденного фрода. После обучения модели и тестирования на той же выборке (соотношение 70/30) оценка модели показывает, что все значения true positive. Про тестировании модели на выборке в 30000 уже неизвестных заявок оценка модели сообщает, что все строки false positive. Прочитал много документации, перепробовал разные комбинации алгоритмов и выбираемых данных, но вменяемого результата получить не могу. Я понимаю, что данных для обучения пока очень мало и нужно хотя бы раз в 20 побольше. Но правильно ли я делаю и как правильно понять результаты? Я с такой маленькой выборкой для обучения вообще ничего не добьюсь, или я неправильно настраиваю модель в azure ml studio, и все таки что-то вменяемое можно получить хотя бы для сырого прототипа?
Алгоритм, который использовал последний раз - two classes boosted decision tree.
Буду благодарен хотя бы за комментарии от людей, которые тоже пробовали делать что -то такое. Спасибо!
  • Вопрос задан
  • 410 просмотров
Подписаться 1 Оценить Комментировать
Решения вопроса 1
@vasiliev
Вы только примеры фрода отправили на обучение что ли, без примеров "не-фрода"? Надо и положительные, и отрицательные примеры отправлять для двухклассовой классификации. Объём данных желательно побольше, конечно, но и с небольшим объёмом корректных данных не должно быть таких результатов, как у вас.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
begemot_sun
@begemot_sun
Программист в душе.
Данных должно быть явно больше. 140 - это ни очем.
Как вариант, можно нагенерить данные.
Берем каждую строку, и меняем один параметр. Т.о. из одной строки можно нагенерить 10-20 новых.
Но это так - метод в лоб.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы