Задать вопрос
@Quiensabe
VR-разработчик

Как правильно найти и описать аппроксимацию данных нормальным распределением со смещенным центром?

Суть вопроса. Есть данные о вероятности встретить некоторый вид в зависимости от высоты над уровнем моря:
649c29424308d503844753.png
Серым фоном показан диапазон высот где в принципе проводились поиски, т.е. он ограничен.

Нужно найти точку максимальной распространенности вида (т.е. на какой высоте его больше всего).

Так как распределение нормальное, то по сути нужно найти центр этого нормального распределения.
Стандартные функции определения нормального распределения по выборке, предполагают, что оно равно мат. ожиданию выборки. Т.е. как-то так:
649c2a1bdb522171883631.png

Но это не учитывает, что центр может быть за пределами анализируемого диапазона. И в данном случае, данные гораздо лучше аппроксимируются как-то так:
649c2a7c5c336033207002.png

Для нахождения параметров такого распределения я написал небольшой скрипт на питоне который тупым перебором параметров нашел нужные распределения. И результат неплох, в смысле соответствует представлениям о реальном характере произрастания растений. Но возникло два вопроса:

1. Как на деле определяются параметры такого смещенного нормального распределения? Может есть стандартные функции/алгоритмы для аналитического решения задачи?

2. (и главное) Как это все описать правильным с т.з. мат. статистики языком? Мне нужно изложить весь алгоритм в статье, а я довольно далек от мат. статистки, и боюсь переврать термины. Можете подкинуть какие-то правильные формулировки, для этого случая?

Понимаю, что совет "возьмите учебник такой-то и за полгодика освойте основы" - классный и очень приятный советующему. Но надеюсь на помощь людей живущих в реальном мире и понимающих, что возможности не всегда совпадают с желаниями.

В любом случае, спасибо, за любые советы!
  • Вопрос задан
  • 157 просмотров
Подписаться 2 Средний Комментировать
Пригласить эксперта
Ответы на вопрос 1
Maksim_64
@Maksim_64
Data Analyst
И так о сути вашей задачи. Перед вами "случайная выборка" sample distribution. Вы утверждаете что общее распределение (population distribution) нормально. Откуда вы это взяли я не знаю, но допустим может условие проблемы таково. Функция нормального распределения имеет два параметра среднее (mean) и стандартное отклонение (standard deviation). Общий вид N(mu, std). Ваша статистическая задача это осуществить аппроксимацию этих параметров на основе данных случайной выборки (sample).

Нужно найти точку максимальной распространенности вида (т.е. на какой высоте его больше всего).
У непрерывных распределений не бывает точек, бывает интервалы. Вероятность в любой точке равна нулю, это одно из главных различий дискретного pmf (probability mass function) от непрерывного pdf (probability density function).

Стандартные функции определения нормального распределения по выборке, предполагают, что оно равно мат. ожиданию выборки.
Что это вообще значит, математическое ожидание это параметр функции распределения, что значит равна вообще ничего не понял.

Но это не учитывает, что центр может быть за пределами анализируемого диапазона

Вообще ничего не понял, есть распределение что такое предел анализируемого диапазона где вы это нашли?

Теперь к ответу на оба ваши вопроса:
На ваших графиках попытка аппроксимировать pdf, для данных на основе наблюдений. В реальности это делается ну например методами MLE (Maximum Likelihood Estimation) Это числовой метод. В том числе полно примеров и на python. Так и гуглить python maximum likelihood estimation normal distribution. Аналитические методы тоже есть конечно. гуглить population mean from sample distribution. Ну и там в определенном интервале будет лежать mean. Но аналитические методы подразумевают слабовыполнимые допущения нужно знать стандартное отклонение популяции например, по этому на практике использует числовые то есть MLE. По терминалогии это классическая статистическая задача на основе выборки осуществить (statistical inference) то есть аппроксимировать параметры population distribution. Точную терминологию (на русском) смотри, в вики. Я привык все это дело на английском делать.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы