Почему удаление отклоненных значений удаляет так много данных?

Question

Sneiksus @Sneiksus

Почему удаление отклоненных значений удаляет так много данных?

Хочу удалить данные о возрасте которые выходять из диапазона 5-95%. В чем может быть проблема что удаляется почти половина записей о возрасте? При том распределение до и после одинаковое

Вопрос задан более двух лет назад
33 просмотра

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Machine Learning: тариф Базовый

7 месяцев

Далее
Бруноям

Data Scientist

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MacBook

+2 ещё

Простой
Mac для машинного обучения, стоит ли брать?
- 1 подписчик
- 17 часов назад
- 124 просмотра
2

ответа
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 149 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 502 просмотра
2

ответа
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 226 просмотров
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 515 просмотров
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 469 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 371 просмотр
1

ответ
Машинное обучение

Простой
Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?
- 2 подписчика
- 22 янв.
- 155 просмотров
0

ответов
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 140 просмотров
0

ответов
Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 136 просмотров
1

ответ
Показать ещё Загружается…

А ничего, что приведенные гистограммы показывают как раз обратное - количество данных в выборках "до" и "после" одинаково?? О каком удалении половины записи идет речь? Из чего это следует? Точно не из гистограммы.

Answer 1 · 2023-12-09 20:52:53

Ну если у тебя одинаковых значений много, на приграничных значениях (low, upper) возможно ты все удаляешь такие значения.

Если тебе надо отфильтровать фрейм по возрасту (5 персентиль 95 персентиль). Используй что нибудь вроде такого.

low = df['Age'].quantile(0.05)
upper = df['Age'].quantile(0.95)

df[df['Age'].between(low, upper)]

Ну и не забудь про параметры метода quantile, например задать interpolation (интерполяцию). По у молчанию там линейная среднее между двумя значения, можешь например поставить 'nearest' и будет идентичное поведение np.percentile()

Answer 2 · 2023-12-16 22:59:30

График Age ditribution before... вызывает большие сомнения - там явно не 10900. Проверь формирование этого графика. Возможно правильный график снял бы вопросы.

Почему удаление отклоненных значений удаляет так много данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт