mari_an_shum
@mari_an_shum
Компьютерный лингвист

Как работает оценка влияния признаков в методе vip() библиотеки vip в R?

Здравствуйте!

Очень интересно было бы узнать, по какому алгоритму работает метод vip() в языке R. Он предназначен для оценки степени влияния признаков на зависимую переменную в рамках конкретной ML-модели. На вход принимает модель (например, дерево решений), возвращает столбчатую диаграмму, на которой факторы оценены и ранжированы по силе влияния. Как производится эта оценка? Также было бы интересно узнать, в каких единицах измеряется влияние? На оси абсцисс диаграммы размечены числа, однако неясно, чему они соответствуют.
В документации по соответствующему методу принцип работы не описан.
Пример диаграммы прилагаю.
Заранее благодарю за ответ!
646cea3fb84ae626860151.png
  • Вопрос задан
  • 38 просмотров
Решения вопроса 1
Maksim_64
@Maksim_64
Data Analyst
Ну смотри, vip - Variable Importance Plot. Это думаю ты и сама знаешь.

1. Как измеряются - здесь все зависит от моделей и от задач которые они выполняют (задача регрессии или классификации). Много различных способов измерения важности предикторов (признаков) . По этому поговорим интуитивно, а не о деталях. Зачем это нужно в рамках анализа? В рамках нашей модели, какие предикторы (признаки) наиболее важные, на этот вопрос мы хотим ответить, например, мы можем выкинуть предикторы (признаки) со слабым влияниям (это может серьезно улучшить стабильность нашей модели, то как модель будет работать в продакшене потому что чем больше предикторов (признаков) тем больше ИСТОЧНИКОВ потенциальной ошибки, и если предиктор (признак не имеет практически никакого влияния для нас) то лучше от него избавится).

2. В чем измеряется - и тут все зависит от модели и от метрики (на которой точность этой модели измерялась). Тут единица измерения ВАЖНОСТЬ. Для множественной линейной регрессии это это одна единица для деревьев другая. По этому у тебя на оси x VIP scores (Просто оценка важности). Что бы иметь более детальную интерпретацию, это надо брать модель, брать метод оценки MSE, RMSE, r_squared и т.д. и отдельно работать, в рамках данной функции это просто оценка важности.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы