@Sneiksus

Как правильно трансформировать данные к нормальному распределению?

Использую QuantileTransformer для преобразования столпца 'page_activity_duration'.
qt = QuantileTransformer(output_distribution="normal",n_quantiles=1000)
train[ 'page_activity_duration'] = qt.fit_transform(train[ 'page_activity_duration'])


Перед трансформацией:
6558f2bd14964115365592.png

После:
6558f2fef2755082169259.png

Почему макс. значение увеличивается до 2000 и почему появляются пустые столбики в середине?
  • Вопрос задан
  • 75 просмотров
Пригласить эксперта
Ответы на вопрос 1
Maksim_64
@Maksim_64
Data Analyst
Правильного способа не существует в природе. Надо пробовать все трансформеры.

Пробуй Power Transformer (Он все таки самый универсальный) с обоими методами Box-Cox и Yeo-Johnwon . И делай тоже самое визуализацию распределение до и после. На всякий случай перепроверь свой код визуализации.

Держи kaggle notebook из коллекции на эту тему. Где детально разобраны все трансформеры и визуализация хорошо выполнена, QQ график из statsmodels используется, плюс KDE в общем очень советую читать notebook и пробовать на своих данных.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы