Задать вопрос
@FlasheR_SPb

Как управлять степенью доверия в обучающей выборке в машинном обучении?

Возможно ли в алгоритмах случайного леса и/или градиентного бустинга указывать различные степени доверия, разбивая большое обучающее множество на временные отрезки?
То есть, если мы имеем очень большую выборку данных в хронологическом порядке, и хотим использовать для обучения данные 10 летней давности, но при этом, чтобы данные годичной давности влияли на результат в большей степени.
Возможно ли такое? В какую сторону посмотреть? О чем почитать?
  • Вопрос задан
  • 422 просмотра
Подписаться 2 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
Arseny_Info
@Arseny_Info
R&D engineer
Апсемплить новые данные, даунсемплить старые данные
Ответ написан
Комментировать
@alexnss
Тут правильней называть этот параметр не степенью доверия, а весом.
Для бустинга LigthGBM точно умеет - Параметры описаны здесь парметр называется weight
Для Random forest в пакете для R ranger есть параметр case.weights
Подробности
Weights for sampling of training observations. Observations with larger weights will be selected with higher probability in the bootstrap (or subsampled) samples for the trees.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы