Задать вопрос
@forced

Как определить большинство и меньшинство по числовой характеристике?

Допустим, есть расстояние каждого человека от условной точки из совокупности в 90 человек
ну пусть это значения от 1 метра до 8м
и есть несколько (или 1) 10, 15, 100 и т.д метров

нет данных о конкретных значениях (т.е сравнительный показатель это уровень, например, разброса между большинством и разброса между меньшинством)
и я пока не понимаю как отделить одно от другого

п.с со статистикой знакомлюсь впервые, потому пытаюсь оперировать простыми терминами

я наверное ввел в заблуждение сказав, что известен уровень (т.е %). нет, из доступные только набор данных, значения которого заранее неизвестны
можно лишь только предположить что их дельта относительно друг друга будет невелика (это принимаем за большинство), а в другом случае дельта может быть огромной (как между значениями меньшинства т.е 15 и 50 метров, так и на переходе большинство-меньшинство т.е 6 и 150м)
  • Вопрос задан
  • 225 просмотров
Подписаться 1 Средний Комментировать
Решения вопроса 1
Maksim_64
@Maksim_64
Data Analyst
Как определить большинство и меньшинство по числовой характеристике?

Если требуется точный ответ это не вопрос математической статистики. Математическая статистика она оценивает (дает приблизительную оценку с какой то степенью уверенности), но ничего не находит.

Мы имеем данные случайную выборку (если она случайная, это требование, а не пожелание) и распределение откуда она была сделана, например нормальное распределение (нет никаких гарантий что ваше распределение нормально, возможно любое другое, я беру для примера.) 64db45fed6d86239091289.png

У каждого распределения есть параметры, например у нормального это среднее арифметическое значение (μ) и Среднеквадратическое отклонение, часто называют стандартным отклонением (σ).
На основании выборки с определенной степенью уверенности "оценивают" параметры распределения из которого была сделана выборка и затем обладая этими данными можно производить любые расчеты. Например, на графике выше по серединке это среднее отклонение людей от точки, стандартное отклонение это дистанция на сколько отклоняется. Например +- одно стандартное отклонение от среднего это 68% человек.

Так вот это не в коем случае не решение вашего вопроса, это фреймворк о том как мыслить.

Ваше распределение не известно, его нужно оценивать. И нормальное здезь не подойдет потому что ни какой симметрии у вас нет. От 1 метра и выше, то есть распределение будет другое его надо оценить, первый кандидаты это экспонентное распределение , и им подобные. Потому что мы имеем некое скопление и затем чем дальше тем меньше вероятность (как я понял).

Что бы ответить на ваш вопрос надо произвести моделирование распределения и оценку его параметров. Потом мы можем отвечать что например 5% процентов людей будет на расстоянии от например 20-25 метров. Или любые другие вопросы.
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
Vindicar
@Vindicar
RTFM!
Т.е. ты ищешь выбросы (outliers) в данных? Ну вот в этом направлении и гугли. Можно начать с чего-то попроще, скажем, доверительного интервала.
Или другой подход: если у тебя есть примеры таких наборов данных (а их надо иметь! вслепую много не напишешь), то ты можешь оценить закон распределения расстояний. Например, будет ли распределение похоже на нормальное (гауссово)? Если будет то можно будет оценить параметры распределения (среднее и дисперсию), и для каждого из значений оценить его вероятность. Например, значение, близкое к среднему, будет иметь высокую вероятность, а далёкое от среднего - низкую. Тогда можно будет по некоторому выбранному порогу отсекать "маловероятные" значения.
Но это будет работать только для достаточно больших групп, хотя бы несколько десятков человек. Для трёх с половиной человек результаты будут очень неточными.
Ответ написан
dimonchik2013
@dimonchik2013
non progredi est regredi
@forced Автор вопроса
Спасибо всем откликнувшимся за помощь!
Полез искать про распределения. Думаю, дальше справлюсь сам. Мне нужен был вектор в понимании решении подобных задач - основная проблема в обучении математики.
Ответ написан
Комментировать
mayton2019
@mayton2019
Bigdata Engineer
Почитай по ключевому слову - Кластеризация.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы