Ответы пользователя по тегу Математическая статистика
  • Как рассчитать mde и sample size?

    @dmshar
    " как называют то, что работает на основе мат закона для определенного распределения (не важно какого) и благодаря этому правилу оно может оценить различие двух распределений" - само это действие называется проверкой гипотезы об однородности. Критерием называют правило, на основании которого при этой проверке принимают решение. Критериев бывает много и всяких. Если данные подчиняются нормальному закону распределения - проверяют матожидание, средние, моменты более высоких порядков. Аналогичные критерии - есть и для других распределений (равномерного, экспоненциального). Если данные не подчиняются этим законом, или если есть подозрения что могут измениться не только параметры распределения, но и сам закон - применяют непараметрические критерии принятия решения (т.е. критерии свободные от распределений). Например - критерии Вилкоксона-Манна-Уитни, Ван-дер-Вардена, Медианный критерий, Фишера-Йэйтса, Ансари—Бредли, Клотца, и множество других). Могут еще сравниваться не указанные величины, а сами эмпирические функции распределения (Колмогорова-Смирнова, Крамера-фон Мизеса и др). А есть еще совершенно другой (информационно-энтропийный) подход на основании меры Кульбака — Лейблера. Есть методы основанные на метрическом подходе - от метрики Эвклида до метрики Васерштейна. Много чего есть еще.

    Для каждого из критериев существуют свои правила построения доверительных интервалов.
    sample size всегда, для любого критерия ищется как обратная задача - при выбранном критерии, выбранном уровне значимости находят такое значение n, которое обеспечит нужную ширину доверительного интервала. И да, от закона распределения эта величина зависит ровно настолько, насколько вы поверили, что правильно угадали этот самый закон распределения или отказались делать такое предположение вообще.
    Ответ написан
    Комментировать
  • Как посчитать корреляцию вектора и матрицы?

    @dmshar
    А как вам такой вопрос в голову пришел? Просто интересно. Вед корреляция - это по сути подобие двух объектов. А какое может быть подобие у вектора и матрицы, если даже размерность у них разная. Может вы что-то другое на самом деле имеете ввиду, да только терминов правильных не выучили? Вот и спрашиваю, откуда задача-то появилась? Может поймем, что на самом деле вам надо.
    Ответ написан
    Комментировать
  • Какой дизайн исследования и статистические критерии можно использовать?

    @dmshar
    Извините, но вопрос поставлен как-то очень "криво". Не цель (какое исследование?) подбирают под данные, а данные ищут под решение конкретной задачи. Поэтому написали, что надо проверить гипотезу о соотнесении покупки товара с принадлежностью покупателя к конкретной группе - вот это исследование и проводите. Это, кстати, классическая задача, приводимая в качестве примера применения машинного обучения к маркетинговым задачам. Задача сводиться на самом деле к т.н. "анализу номинальных признаков", таблицам сопряженности Пирсона, в маркетинге это часто называют "A/Б анализом" Информации куча.
    Ответ написан
    2 комментария
  • Как посчитать доверительный интервал для суммы двух ошибок при отличающимся числе степеней свободы?

    @dmshar
    Что-то вы перемудрили.
    Позиция первая.
    Доверительный интервал любой случайной величины при заданном уровне значимости Альфа определяется границами, отсекающими такую область под функцией плотности распределения, площадь которой равна 1-Альфа.
    Позиция вторая.
    Если имеются две случайные величины, то случайная величина, определяемая как их сумма имеет математическое ожидание равное сумме матожиданий этих величин, а дисперсия определяется по формуле: D[X+Y]=D[X]+D[Y]+2cov(X,Y) где
    cov(X,Y) - это ковариация этих величин.
    Позиция третья. Оценкой матожидания есть среднее арифметической значений выборки случайной величины, а оценкой дисперсии - сумма квадратов отклонений от среднего значения деленая на (n-1).
    Если ваши случайные величины независимы между собой, то значение ковариации можно считать равной 0.

    Таким образом, у вас имеется значение параметров распределения суммы этих величин. Дисперсии и матожидания. Имея эти параметры в любом статистическом пакете, в таблицах в учебниках статистики и теории вероятностей (ну или в ручную, если есть склонность к садомазохизму) можно вычислить (в таблицах - найти) границы доверительного интервала суммы как квантили Альфа/2 и 1- Альфа/2 квантили. Это и есть границы вашего искомого доверительного интервала.
    Ответ написан
  • Как посчитать стандартное отклонение коэффициента парной регрессии без константы?

    @dmshar
    С моей точки зрения , оценка дисперсии коэффициента b никак не зависит от значения коэффициента а.

    Косвенное подтверждение этого тезиса заключается в том, что при использовании модели y = a + b*x может оказаться, что значение a=0. Но это ведь никоим образом не повлияет на сами формулы вычисления оценочной дисперсии.

    Следствие - для оценки дисперсии коэффициента регрессии b может использоваться стандартное определение.

    P.S. Кстати, вы с проверкой стационарности https://qna.habr.com/q/1168170 уже разобрались?
    Ответ написан
  • Как можно проверить стационарность распределения?

    @dmshar
    Распределение, параметры которого неизменны во времени (для временных рядов) или от выбранных подвыборок называются стационарными. Стационарность проверяется проверкой соответствующих статистических гипотез.
    Любые "популярные" методы,реализованные - только не в Python, а в библиотеке scipy.stats из экосистемы Python - вполне могут быть использованы для проверки неизменности параметров распределения. Их (методов) там десятки. Но выбор их - должен быть сделан "по уму", т.е. с учетом множества ограничений, изучаемых в соответствующем разделе математической статистики.
    Ответ написан
    Комментировать
  • Можно ли на python задать распределение по четырем моментам?

    @dmshar
    Ну, если вы серьезно заинтересовались темой - то можете начать вот отсюда:
    https://www.researchgate.net/publication/315332575...
    и отсюда
    https://cyberleninka.ru/article/n/metod-podbora-na...
    А далее по ссылкам.
    Но предупреждаю, математика там суровая. И Python тут вовсе не при чем. Разве что вы напишете свою реализацию описанных в работе методов.
    Ответ написан
    Комментировать
  • Как определить ключевые предикторы, если нет корреляции?

    @dmshar
    Давайте немного разберёмся.
    Ваше первое утверждение:
    осложнения (как зависимые параметры) зависят от предикторов, коими являются некие "вмешательства"
    Ваше второе утверждение:
    осложнения никак не коррелированы (т.е. нет связи а тем более нет зависимости ) с вмешательствами.
    Вам не кажется, что тут явное противоречия? Именно в ваших утверждениях. Потому как я понимаю, зависимость между осложнениями и вмешательствами в каком-то виде должны присутствовать. Иначе, что же мы хотим изучать?
    Смею предположить, что корреляция все-таки имеется, но вы ее не умеете фиксировать. Либо она слабо проявляется на отдельных предикторах, но имеется между некоторым набором предикторов и конкретным видом осложнений. И этого вы тоже скорее всего не проверяли. Не говоря уже о том, что эти самые предикторы (т.е. вмешательства) могут быть представлены либо в номинальной, либо в ранговой, либо даже в числовой шкале. И в зависимости от вариантов применяются различные методы выявления корреляции.
    В любом случае, при решении подобных проблем без углубления в семантику как правило получить вразумительного решения не удается. Не уверен, что форум - это то место, где такую дискуссию стоит затевать. Хотя некоторые базовые вопросы, если они у вас есть, мы можем попробовать обговорить и тут. Но начинать точно надо не со столь глобального и не имеющего общего ответа вопроса, как "Как определить ключевые предикторы".
    Ответ написан
    Комментировать
  • Выбор статистической гипотезы?

    @dmshar
    Не дочитал до конца. Какая-то каша. Сначала застопорился вот на этом.
    Группа1 и Группа2 различаются по обнаружению качественного признака Х.
    Что это означает?
    Что вы отнесли элементы в группы по значению этого признака? Ну например - "мужчины/женщины"? "Больной/Здоровый" и пр? Отлично. Так можно. Но вот вопрос, а как тогда вы формировали "Контроль"?

    Идем дальше.
    В свою очередь каждая группа делится по срокам эксперимента.
    Делится? Или все таки у каждого объекта снимаются показатели, но делается это многократно, то что вы назвали "по срокам эксперимента"? Т.е. для каждого объекта на самом деле имеем не параметры "перем1, Перем2, Перем3, Перем4" а параметры "перем1_в момент1, Перем2_в момент1, Перем3_в момент1, Перем4_в момент1,перем1_в момент2, Перем2_в момент2, Перем3_в момент2, Перем4_в момент2,перем1_в момент3, Перем2_в момент3, Перем3_в момент3, Перем4_в момент3,......."

    Идем дальше.
    доказать, что в Группе2, значения перем1, перем2, Перем (i) отличаются от Контроля и Группы1 - Вопрос - на какой момент?

    Далее:
    Различие на разных сроках эксперимента внутри группы делал Краскел-Уоллес.-вы хотели проверить, изменяется-ли значения по времени? Могу предположить, что у вас эксперимент по введению двух лекарств, а контроль - это плацебо. Тогда это имеет смысл, но если контроль это "здоровые" - тогда непонятна цель делать этот анализ внутри группы контроля.

    Далее:
    Сделал корреляционный анализ внутри каждой группы, выявил в части параметров связь в количественных переменных. - цель этого шага и корреляцию чего с чем внутри группы вы измеряли?

    Ну, если ответите, то может и получиться подумать и что-то посоветовать.
    Ответ написан
    Комментировать
  • Как привести выборку в нормальное распределение?

    @dmshar
    "Я вот хочу проверить две группы Т-Тестом" - хотеть можно что угодно. Но вот к исследованию данных это не имеет никакого отношения. Если у вас данные не подчиняются нормальному закону распределения, то использовать t-критерий Стьюдента крайне нерационально. Для таких случаев есть другие тесты, из группы непараметрических. Их много. Можно начать с теста Вилкоксона-Манна-Уитни, и/или критерия Колмогорова-Смирнова. Их стандартные реализации есть в scipy.stats. Впрочем, как и кучи других методов, которые могут применятся в таких случаях.
    Ответ написан
    Комментировать
  • Знает ли кто-нибудь источники о криволинейной корреляции?

    @dmshar
    Вообще-то говоря, нелинейная корреляция и нелинейная регрессия - это хотя и близкие, но несколько различные темы. Поэтому если вас интересует именно корреляция, а не регрессия, то могу рекомендовать заглянуть вот сюда:
    https://scask.ru/g_book_mkor.php?id=38
    Ответ написан
    Комментировать
  • Как рассчитать коэффициенты авторегрессии?

    @dmshar
    Как тот странно. Мне почему-то кажется, что нынче даже шестиклассники с легкостью умеют искать в Гуугле. А вопрос вроде уже из программы ВУЗа. Впрочем, может вам задали это задание вообще ни слова не рассказав о том, что такое авторегрессия и что такое автокорреляция. Тогда информирую - это разные вещи.
    Вот, даже в Википедии это написано:
    https://ru.wikipedia.org/wiki/Авторегрессионная_модель.
    https://ru.wikipedia.org/wiki/Автокорреляция
    Автокорреляцию, что в EXCEL, что в Python можно рассчитать с использованием обычных функций расчета корреляций =КОРРЕЛ() в EXCEL, ну а в Python - в зависимости от пакета с которыми умеете работать - numpy.corrcoef(), scipy.stats.pearsonr(), pandas.corr(). Только на вход подаются не два разных набора данных, а один и тот-же но со смещением, равным желаемому вами лагу.

    Авторегрессия - считается либо с использованием средств/функций расчёта регрессии, либо в Python функцией arima_model из библиотеки statsmodels.tsa, естественно, параметры "d" и "q" при этом надо обнулить.
    Ну вот, с моделью SARIMA можете ознакомиться, например, вот тут:
    https://towardsdatascience.com/time-series-forecas...
    Ответ написан
    Комментировать
  • Какие книги по data analysis стоит изучить? В частности по статистике и математике. Есть ли книги полезные для биоинформатиков?

    @dmshar
    А вы читайте и те и другие. Есть шанс стать специалистом. И пользы будет явно больше, чем от каких-то адаптаций для "полуспециалистов",
    Ответ написан
  • Относительно какой части под кривой считается площадь для p-value?

    @dmshar
    Что то вы запутали. Есть точка по оси Х. Она делит площадь под кривой плотности распределения на две части. Площадь под кривой справа от Х равна - например - 0.05. Площадь под кривой слева от Х тогда равна 0.95. Но это если положение Х хорошо подобрать. Т.е. надо понимать, всегда есть точка и есть доля площади, отсекаемая ею.(Часто говорят просто "площадь под кривой", потому как суммарная площадь под кривой плотности распределения всегда равна 1).
    Если у вас есть произвольная точка на Х то площадь справа от нее (если мы говорим об односторонней гипотезе) и есть ee (точки) p_value. Для двухсторонней гипотезы надо рассматривать p_value, разделенные на два фрагмента - один "далеко справа", другой "далеко слева". Это если на пальцах объяснять, но суть понятна.
    Все просто.
    Ответ написан
  • Уравнение линейной регрессии."Доля дисперсии объясненная влиянием независимой переменной".Как понять?

    @dmshar
    5f99b01a18c3c198782100.png
    Смотрим на рисунок. Из него все должно быть понятно, из чего и как складываются ошибки. То, что на рисунке называется "сумма квадратов ошибки", лучше бы, конечно назвать "сумма квадратов ошибки, которая не объяснена полученным уравнением регрессии".

    Немного неожиданным может показаться разве что то, что на рисунке фигурируют квадраты. Но вот соотношение - полная сумма квадратов равна сумме двух сумм квадратов - доказывается в любом "приличном" ресурсе.
    Ответ написан
    Комментировать
  • Как реализовать рассчет критерия Колмогорова-Смирнова для двух выборок в SQL (по аналогии с stats.ks_2samp из Python)?

    @dmshar
    Но мне нужно получить именно p-value для полученного значения статистики, как в функции Python - Дело в том, что критерий Колмогорова-Смирнова построен на факте соответствия статистики, которая получается при его расчете, с распределением Колмогорова (собственно, поэтому и критерий носит такое двойное имя). Причем связана несколько хитрым образом . Поэтому если вам из каких-то соображений надо пройти этот путь самому, "как функция sf", значит вам надо это распределение построить, а потом стандартной процедурой высчитать p-value, т.е. найти интеграл плотности вероятности, который остался правее этого значения.
    Из большой любви к искусству конечно можно и этим заняться, или из-за неверия в готовые решения. А других причин для такого садомазохизма я не вижу.

    P.S. И да, это наука, а не инженерия, как программирование. И реверс-инжинирингом ее не изучить.
    Ответ написан
  • Как сравнить коэффициенты корреляриции при разных размерах выборок?

    @dmshar
    Что-то пытаюсь понять что вы написали.
    Во-первых, надеюсь, что речь идет о критерии корреляции Пирсона.
    Во-вторых, вовсе не обязательно, что в вашем пример второй результат "правильный". Наверное вам рассказывали, что кроме ЛЮБОГО статистического критерия можно - а скорее нужно, и даже нужно в первую очередь - рассчитывать его p_value. Вот, последний параметр как раз и предназначен для того, чтобы показать (если очень опримитивизировать) уверенность в ответе, при расчете которой и учитывается в том числе объем вашей выборки. А научных работах представление точечного значения оценочной статистики без указания p_value (или хотя-бы доверительного интервала) вообще считается недопустимым.
    Современные пакеты считают его как правило сразу с коэффициентом корреляции (например, scipy.stats.pearsonr()). Можно чуть сложнее и в EXCEL посчитать.
    Ответ написан
    2 комментария
  • Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?

    @dmshar
    Что-то немного не сходится. Проведя ресемплинг мы получаем эмпирическую функцию распределения (например) среднего значения. Для этого распределения (а не для распределения исходной выборки) мы можем строить доверительный интервал, т.е. такие пределы, в которых (условно) в 95 случаях из ста попадет среднее нашей выборки.
    Т.е. реальное среднее реальной выборки или матожидание генеральной совокупности вполне может и не попасть в этот доверительный интервал, но вероятность этого меньше 5%. Причем такое заключение мы сделали исключительно на основе имеющихся данных. Если вдруг у нас появятся дополнительные данные из той-же генеральной совокупности, то вполне возможно, что наше заключение придется корректировать.
    Главное понять: статистика - это не об уверенности. Никогда! Статистика это на самом деле о вероятности ошибиться в своей уверенности.
    P.S. Все таки загляните в книгу, которую я вам порекомендовал в другом месте.
    Ответ написан
    8 комментариев
  • Доверительный интервал и генеральная совокупность.Какая связь?

    @dmshar
    1. Вопрос: будут ли эти выборочные средние распределены нормально относительно величины приблизительно равной среднему росту в ген.совокупности?
    Ответ: Да
    2.Вопрос:Работает ли центральная предельная теорема?
    Ответ: А кто и когда ее отменил?
    3. Вопрос: Поэтому мы смотрим диапазон куда входят 95% всех значений и берем его как исчерпывающий результат?
    Ответ: Мы сначала из внестатистических соображений выбираем уровень значимости. Он может быть и 0.95, и 0.9 и 0.0000001 - любой. А потом уж строим доверительный интервал, используя выбранный уровень значимости.
    Что такое "исчерпывающий результат" - я такого термина в статистике не встречал. Поясните.
    Ответ написан
    Комментировать
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Господи, опять дисперсия, опять размах. Вы после этой темы
    Как соотносится дисперсия с sd?
    хоть один учебник открыли?
    Кто, где, когда вам сказал, что "дисперсия приближается к размаху"???? А тем более, что "дисперсия должна быть близка к размеру выборки"???? Если у вас будет набор на 10000000 элементов, то дисперсия тоже будет "приближаться"???? Да хоть формулу дисперсии посмотрите для интереса. Там размер выборки в ЗНАМИНАТЕЛЕ!!! Подумайте, что это означает в конце концов.
    P.S. Впрочем, подумал- надо бы узнать, в каком классе вы учитесь. Может я слишком многого от вас хочу?
    Ответ написан