Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?
Допустим, мы имеем некую выборку,которую мы считаем репрезентативной. Методом бустрепинга делаем несколько тысяч ресемплов и каждый раз находим,например, среднее значение полученной выборки.Строим функцию распределения вероятности и считаем 2.5 и 97.5 перцентили. Почему на основе этого мы можем быть уверены что этот интервал покроет среднее значение в генеральной совокупности с вероятностью в 95%, не зная распределения,а основываясь только лишь на выборках?
Что-то немного не сходится. Проведя ресемплинг мы получаем эмпирическую функцию распределения (например) среднего значения. Для этого распределения (а не для распределения исходной выборки) мы можем строить доверительный интервал, т.е. такие пределы, в которых (условно) в 95 случаях из ста попадет среднее нашей выборки.
Т.е. реальное среднее реальной выборки или матожидание генеральной совокупности вполне может и не попасть в этот доверительный интервал, но вероятность этого меньше 5%. Причем такое заключение мы сделали исключительно на основе имеющихся данных. Если вдруг у нас появятся дополнительные данные из той-же генеральной совокупности, то вполне возможно, что наше заключение придется корректировать.
Главное понять: статистика - это не об уверенности. Никогда! Статистика это на самом деле о вероятности ошибиться в своей уверенности.
P.S. Все таки загляните в книгу, которую я вам порекомендовал в другом месте.
Спасибо за такой развернутый ответ, стало действительно понятнее. Но вот допустим если , например, у меня есть 1000 показателей индекса массы тела от , соответственно , 1000 людей.
Бутстрап методом я смогу только лишь сгенерировать множество выборок , то есть просимулировать множество экспериментов , когда я бы опрашивал и считал индекс массы тела для 1000 людей ? То есть , я не смогу делать выводы о индексе массы тела всего города или всей страны?
Давайте все по порядку.
Во первых, именно для вашего случая скорее всего применять бутстреп смысла особого нет. Если вы верите, что данные распределены по нормальному закону или близкому к нему (ну, или по какому другому из известных законов) - считаете среднее по выборке, считаете доверительные интервалы (при выбранном уровне значимости) и делаете соответствующее заключение обо всей генеральной совокупности.
Если у вас какое-то замысловатое распределение, например многомодальное, или седловое, вы не знаете его параметров и/или если у вас очень мало данных для получения достоверного результата - тогда на помощь приходит бутстреп. Вы отловили своих 300 человек и пытаетесь с их помощью смоделировать всю выборку. Берете из них 10000 раз по двести и считаете свой параметр. Потом по полученным 10000 образцов строите распределение этого параметра - а далее его доверительный интервал. Понятно, что это не идеально, но это возможность работать в условиях малых выборок. И понятно, что такой вывод может оказаться точнее, чем вывод по 300 экземплярах.
Но скорее всего именно для среднего значения, при 1000 образцах и генеральной совокупности порядка миллионов - разница от классического подхода будет не существенна.
dmshar, Да, это усвоил , спасибо. Но также ведь нам нужно наложить некоторые условия на выборку из которой мы будем составлять сэмплы? Например , она должна быть репрезентативна , избавлена от аномалий. Но как нам можно будет это все учесть , если она доступна только одна и не факт что избавленная от искажений.... Или заложив большое количество сэмплов , мы сможем частично разрешить эту проблему?
Опять все немного перепутано.
Если у вас управляемое исследование - т.е. вы можете отобрать нужное вам количество образцов, каких хотите и сколько хотите - то тогда о бутстрепе думать не надо. Задаете уровень значимости, определяете нужный вам размер выборки, отбираете выборку (как правило - случайным выбором, но не только) собираете данные, считаете.
Но бывают случаи когда в силу обстоятельств вы не можете набрать нужное количество образцов, т.е. не можете в принципе обеспечить достоверность своих результатов. И вот тогда в силу вступает бутстреп. Понятно, что если он не повезет, и полученные данные будут изначально сильно смещены - ну например, из 100 образцов у вас 99 женщин и 1 мужчина - то никакой бутстреп не спасет. Ну, какие-то задачи кое-как решить удастся, какие-то нет. А что делать, если у вас действительно некоторая болезнь встречается одна на сто тысяч, а вы хотите понять, различаются ли по какому-то показателю больные и здоровые? Вот для таких разных экзотических случаев бутстреп и есть один из метода какого-то выхода из ситуации.
А при "большом количестве сэмплов" - зачечм вам бутстреп вообще?
dmshar, Я имел в виду количество выборок которые мы составим из имеющейся. Да, путаюсь сильно пока , просто прохожу курс "statistical thinking in python" и когда речь зашла о проверке статистических гипотез , ввели в бутстрап. А можно Вам еще задать вопрос по поводу центральной предельной теоремы? Хочу тоже устранить недопонимания. Я столкнулся с тем , что где-то просто написано , что среднее значение показателя извлекаемое из одной совокупности будет представлять из себя нормальное распределение , а где-то , что стремится при n->inf или что при n->inf функцию распределения можно аппроксимировать функцией нормального распределения. Но в любом случае при той же аппроксимации будет возникать погрешность. В таком случае нам как раз таки и поможет такое понятие как доверительный интервал?
1. Конечно "стремиться". Потом вы поймете (или вам расскажут, или из личного опыта), что действительно нормального распределения в реальной жизни практически не встречается. А все только "стремятся".
2. Вот доверительный интервал и вбирает в себя всю погрешность.
3. Курсы это хорошо, хотя не знаю, что это за курсы такие, но книжечку, что я вам порекомендовал (Гланц) - почитайте. Там хоть и нет слова "бутстреп", но идея разжевана до мелочей. А про бутстреп как таковой - есть такая книга В.К. Шитиков, Г.С. Розенберг Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R". Ну про R, экологию с биологией можно пропустить, а вот с концепцией и вариантами - можно ознакомиться и подробненько.
tim_ka18, Если мои ответы вам помогли и вы их действительно принимаете - и то и другое на этом сайте выражается путем нажатия соответствующих кнопочек под первоначальным ответом.
Удачи.