Как добавить в модель ML признаки разного размера (кредитные истории)?
Есть модель классификации для поиска мошенников в страховании, куда в качестве одного из факторов входит кредитный скоринг, объект - страхователь. Кроме того, есть данные кредитных историй. Хотелось бы добавить оттуда новых фичей. Но у каждого человека может быть разное количество кредитов. Какой есть способ учесть все данные кредитный истории (именно все данные по кредитам, а не счётчики об их количестве и. т. п.)?
Данил, да, так можно. Но здесь нужно будет или ограничивать (как вы пишете, по 3, 4, 5 кредитам), или заранее знать длину кредитной истории, чтобы она совпадала для всех объектов. Ещё, допустим, 1 user: sum1 - небольшая, sum2 - очень большая, 2 user: sum1 - большая, остальных нет (нули). Таким образом, если у user есть только 1 кредит, его характеристики заведомо будут в sum1, а с sum2 и.т.д сравниваться не будут. Выход - только заполнить дубликатами данных по этому единственному кредиту для такого юзера. Всё ведёт к необоснованному разрастанию данных.
По длине кредитной истории - все зависит от Ваших данных. Смотрим количество пользователей у которых количество кредитов больше 1го, 2х, 3х и думаем сколько последних кредитов имеет смысл включить в выборку. Остальные данные по кредитам (если у кого-то их было много) пойдут в "агрегированные" фичи.
По поводу того, что для части пользователей некоторые фичи будут нулями - для OneHotEncoding - это нормально. Оставьте это на откуп алгоритмам машинного обучения :)
В машинном обучении ну существует готовых решений на все случае жизни :) У Вас есть идея, Вам нужно проверить насколько хорошо они работают именно для Вашей задачи, на текущем наборе данных.
Структура используемых кредитов по видам кредитов
Структура ежемесячного платежа по видам кредитов
Ежемесячный платеж по видам кредитов к среднемесячному доходу (если есть)
Сумма досрочных погашений за период к сумме используемых кредитов