@Sneiksus

Почему удаление отклоненных значений удаляет так много данных?

6574a4dc40973348625211.png

Хочу удалить данные о возрасте которые выходять из диапазона 5-95%. В чем может быть проблема что удаляется почти половина записей о возрасте? При том распределение до и после одинаковое
  • Вопрос задан
  • 28 просмотров
Пригласить эксперта
Ответы на вопрос 2
Maksim_64
@Maksim_64
Data Analyst
Ну если у тебя одинаковых значений много, на приграничных значениях (low, upper) возможно ты все удаляешь такие значения.

Если тебе надо отфильтровать фрейм по возрасту (5 персентиль 95 персентиль). Используй что нибудь вроде такого.
low = df['Age'].quantile(0.05)
upper = df['Age'].quantile(0.95)

df[df['Age'].between(low, upper)]


Ну и не забудь про параметры метода quantile, например задать interpolation (интерполяцию). По у молчанию там линейная среднее между двумя значения, можешь например поставить 'nearest' и будет идентичное поведение np.percentile()
Ответ написан
Комментировать
@GrKon
График Age ditribution before... вызывает большие сомнения - там явно не 10900. Проверь формирование этого графика. Возможно правильный график снял бы вопросы.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы