Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?

Question

tim_ka18 @tim_ka18

Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?

Допустим, мы имеем некую выборку,которую мы считаем репрезентативной. Методом бустрепинга делаем несколько тысяч ресемплов и каждый раз находим,например, среднее значение полученной выборки.Строим функцию распределения вероятности и считаем 2.5 и 97.5 перцентили. Почему на основе этого мы можем быть уверены что этот интервал покроет среднее значение в генеральной совокупности с вероятностью в 95%, не зная распределения,а основываясь только лишь на выборках?

Вопрос задан более трёх лет назад
201 просмотр

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Решения вопроса 1

8 комментариев

tim_ka18 @tim_ka18 Автор вопроса

Спасибо за такой развернутый ответ, стало действительно понятнее. Но вот допустим если , например, у меня есть 1000 показателей индекса массы тела от , соответственно , 1000 людей.

Бутстрап методом я смогу только лишь сгенерировать множество выборок , то есть просимулировать множество экспериментов , когда я бы опрашивал и считал индекс массы тела для 1000 людей ? То есть , я не смогу делать выводы о индексе массы тела всего города или всей страны?

Написано более трёх лет назад
dmshar @dmshar

Давайте все по порядку.
Во первых, именно для вашего случая скорее всего применять бутстреп смысла особого нет. Если вы верите, что данные распределены по нормальному закону или близкому к нему (ну, или по какому другому из известных законов) - считаете среднее по выборке, считаете доверительные интервалы (при выбранном уровне значимости) и делаете соответствующее заключение обо всей генеральной совокупности.
Если у вас какое-то замысловатое распределение, например многомодальное, или седловое, вы не знаете его параметров и/или если у вас очень мало данных для получения достоверного результата - тогда на помощь приходит бутстреп. Вы отловили своих 300 человек и пытаетесь с их помощью смоделировать всю выборку. Берете из них 10000 раз по двести и считаете свой параметр. Потом по полученным 10000 образцов строите распределение этого параметра - а далее его доверительный интервал. Понятно, что это не идеально, но это возможность работать в условиях малых выборок. И понятно, что такой вывод может оказаться точнее, чем вывод по 300 экземплярах.
Но скорее всего именно для среднего значения, при 1000 образцах и генеральной совокупности порядка миллионов - разница от классического подхода будет не существенна.

Написано более трёх лет назад
tim_ka18 @tim_ka18 Автор вопроса

dmshar, Да, это усвоил , спасибо. Но также ведь нам нужно наложить некоторые условия на выборку из которой мы будем составлять сэмплы? Например , она должна быть репрезентативна , избавлена от аномалий. Но как нам можно будет это все учесть , если она доступна только одна и не факт что избавленная от искажений.... Или заложив большое количество сэмплов , мы сможем частично разрешить эту проблему?

Написано более трёх лет назад
dmshar @dmshar

Опять все немного перепутано.
Если у вас управляемое исследование - т.е. вы можете отобрать нужное вам количество образцов, каких хотите и сколько хотите - то тогда о бутстрепе думать не надо. Задаете уровень значимости, определяете нужный вам размер выборки, отбираете выборку (как правило - случайным выбором, но не только) собираете данные, считаете.
Но бывают случаи когда в силу обстоятельств вы не можете набрать нужное количество образцов, т.е. не можете в принципе обеспечить достоверность своих результатов. И вот тогда в силу вступает бутстреп. Понятно, что если он не повезет, и полученные данные будут изначально сильно смещены - ну например, из 100 образцов у вас 99 женщин и 1 мужчина - то никакой бутстреп не спасет. Ну, какие-то задачи кое-как решить удастся, какие-то нет. А что делать, если у вас действительно некоторая болезнь встречается одна на сто тысяч, а вы хотите понять, различаются ли по какому-то показателю больные и здоровые? Вот для таких разных экзотических случаев бутстреп и есть один из метода какого-то выхода из ситуации.
А при "большом количестве сэмплов" - зачечм вам бутстреп вообще?

Написано более трёх лет назад
tim_ka18 @tim_ka18 Автор вопроса

dmshar, Я имел в виду количество выборок которые мы составим из имеющейся. Да, путаюсь сильно пока , просто прохожу курс "statistical thinking in python" и когда речь зашла о проверке статистических гипотез , ввели в бутстрап. А можно Вам еще задать вопрос по поводу центральной предельной теоремы? Хочу тоже устранить недопонимания. Я столкнулся с тем , что где-то просто написано , что среднее значение показателя извлекаемое из одной совокупности будет представлять из себя нормальное распределение , а где-то , что стремится при n->inf или что при n->inf функцию распределения можно аппроксимировать функцией нормального распределения. Но в любом случае при той же аппроксимации будет возникать погрешность. В таком случае нам как раз таки и поможет такое понятие как доверительный интервал?

Написано более трёх лет назад
dmshar @dmshar

1. Конечно "стремиться". Потом вы поймете (или вам расскажут, или из личного опыта), что действительно нормального распределения в реальной жизни практически не встречается. А все только "стремятся".
2. Вот доверительный интервал и вбирает в себя всю погрешность.
3. Курсы это хорошо, хотя не знаю, что это за курсы такие, но книжечку, что я вам порекомендовал (Гланц) - почитайте. Там хоть и нет слова "бутстреп", но идея разжевана до мелочей. А про бутстреп как таковой - есть такая книга В.К. Шитиков, Г.С. Розенберг Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R". Ну про R, экологию с биологией можно пропустить, а вот с концепцией и вариантами - можно ознакомиться и подробненько.

Написано более трёх лет назад
tim_ka18 @tim_ka18 Автор вопроса

dmshar, Спасибо , что так подробно все разъяснили! Курсы прохожу на datacamp.com (там R,SQL,Python)

Написано более трёх лет назад
dmshar @dmshar

tim_ka18, Если мои ответы вам помогли и вы их действительно принимаете - и то и другое на этом сайте выражается путем нажатия соответствующих кнопочек под первоначальным ответом.
Удачи.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 86 просмотров
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек. 2025
- 275 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 300 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 216 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 211 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 179 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 352 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт. 2025
- 187 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент. 2025
- 166 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент. 2025
- 194 просмотра
1

ответ
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

ML-разработчик (аудио)

НТЦ ПРОТЕЙ • Санкт-Петербург

от 220 000 до 280 000 ₽

Answer 1 · 2020-08-20 18:34:57

Что-то немного не сходится. Проведя ресемплинг мы получаем эмпирическую функцию распределения (например) среднего значения. Для этого распределения (а не для распределения исходной выборки) мы можем строить доверительный интервал, т.е. такие пределы, в которых (условно) в 95 случаях из ста попадет среднее нашей выборки.
Т.е. реальное среднее реальной выборки или матожидание генеральной совокупности вполне может и не попасть в этот доверительный интервал, но вероятность этого меньше 5%. Причем такое заключение мы сделали исключительно на основе имеющихся данных. Если вдруг у нас появятся дополнительные данные из той-же генеральной совокупности, то вполне возможно, что наше заключение придется корректировать.
Главное понять: статистика - это не об уверенности. Никогда! Статистика это на самом деле о вероятности ошибиться в своей уверенности.
P.S. Все таки загляните в книгу, которую я вам порекомендовал в другом месте.

Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт