• Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?

    @dmshar
    Опять все немного перепутано.
    Если у вас управляемое исследование - т.е. вы можете отобрать нужное вам количество образцов, каких хотите и сколько хотите - то тогда о бутстрепе думать не надо. Задаете уровень значимости, определяете нужный вам размер выборки, отбираете выборку (как правило - случайным выбором, но не только) собираете данные, считаете.
    Но бывают случаи когда в силу обстоятельств вы не можете набрать нужное количество образцов, т.е. не можете в принципе обеспечить достоверность своих результатов. И вот тогда в силу вступает бутстреп. Понятно, что если он не повезет, и полученные данные будут изначально сильно смещены - ну например, из 100 образцов у вас 99 женщин и 1 мужчина - то никакой бутстреп не спасет. Ну, какие-то задачи кое-как решить удастся, какие-то нет. А что делать, если у вас действительно некоторая болезнь встречается одна на сто тысяч, а вы хотите понять, различаются ли по какому-то показателю больные и здоровые? Вот для таких разных экзотических случаев бутстреп и есть один из метода какого-то выхода из ситуации.
    А при "большом количестве сэмплов" - зачечм вам бутстреп вообще?
  • Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?

    @dmshar
    Давайте все по порядку.
    Во первых, именно для вашего случая скорее всего применять бутстреп смысла особого нет. Если вы верите, что данные распределены по нормальному закону или близкому к нему (ну, или по какому другому из известных законов) - считаете среднее по выборке, считаете доверительные интервалы (при выбранном уровне значимости) и делаете соответствующее заключение обо всей генеральной совокупности.
    Если у вас какое-то замысловатое распределение, например многомодальное, или седловое, вы не знаете его параметров и/или если у вас очень мало данных для получения достоверного результата - тогда на помощь приходит бутстреп. Вы отловили своих 300 человек и пытаетесь с их помощью смоделировать всю выборку. Берете из них 10000 раз по двести и считаете свой параметр. Потом по полученным 10000 образцов строите распределение этого параметра - а далее его доверительный интервал. Понятно, что это не идеально, но это возможность работать в условиях малых выборок. И понятно, что такой вывод может оказаться точнее, чем вывод по 300 экземплярах.
    Но скорее всего именно для среднего значения, при 1000 образцах и генеральной совокупности порядка миллионов - разница от классического подхода будет не существенна.
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Вы продолжаете настаивать, что
    Ведь дисперсия как-то приближается к размаху т.к к количеству элементов в выборке
    т.е в моем представлении, дисперсия должна быть близка к размеру выборки


    в момент как мы делим на размер выборки получаем почти тот же результат, что если бы мы просто извлекли корень из числителя


    вы только не нервничайте, выпейте валерьянки
    - а вы хам. Продолжайте оставаться в своей дремучей невежественности. И не забудьте повторить математику начиная с 5-го класса.
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Вы прикалыватесь?
    Есть набор данных 70,90,100,110,130.
    Покажите пошагово, как вы получили 2116 и 46.097. Дисперсию и стандартное отклонение.
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Сколько??? Как вы считаете дисперсию и стандартное отклонение? По какой дивной формуле???
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    askhabaliev,
    Вы неправильно понимаете формулу дисперсии. Она же четко и однозначно приведена выше.
    Неужели вам не понятно, что в числителе не "признак возводится в квадрат", а разности мезду средним значением и признаком?????????????
    и в момент как мы делим на размер выборки получаем почти тот же результат, что если бы мы просто извлекли корень из числителя
    Чего??? А если у вас N=10000 ????
    Подозреваю, что повторение математики вам следует начинать не с 8-го, а с 5-го класса.
    Предлагаю вам решить элементарную задачу.
    Есть пять чисел 70,90,100,110,130.
    Чему равен размах?
    Чему равна sd?
    По дороге не забудте посмотреть, чему будет равен "просто" корень из числителя.

    Если вы не желаете читать учебники, то могу посоветовать нанять репетитора.
    Я в его роли выступать точно не хочу. Но с такими знаниями математики не понимаю, зачем вам статистика. И уж точно, в любом техническом универе вам будет неимоверно трудно.
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Формула несмещённой оценки дисперсии случайной величины

    5f3d8d6a7280f269574201.png

    S^2 - это СРЕДНЕЕ значение отклонения ЗНАЧЕНИЙ от среднего. Вопрос - как оно может оказаться "приблизительно равно то-ли размеру то-ли размаху выборки"? Откуда вы это взяли????

    Если ответить не можете - повторите курс школьной математики, тему "среднее значение" (думаю, что это 8-ый или 9-ый класс.
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    То, что в числителе - НИКАКОГО отношения к размеру выборки не имеет. Так все таки, в каком классе вы учитесь?
  • Начало изучения нейронных сетей, с чего начать?

    @dmshar
    Tholgar31, А какой "деятельный совет" вы хотите получить? Ну вот один из них, - https://qna.habr.com/answer?answer_id=1695183#comm...
  • Начало изучения нейронных сетей, с чего начать?

    @dmshar
    freeExec, Если все сначала доводить до абсурда, а потом гордо этот абсурд опровергать - то вы правы. Но вот только зачем?
    Кстати, прочитать "кучу книг про кибернетику" - это вы считаете излишним для специалиста, который так или иначе в этой области (как бы ее не переименовывали) собирается работать? Ну да, спец по Информтехнологиям сегодня - это тот, кто выучил два десятка функций на РНР да освоил полтора фрейморка.
    И еще, лезть писать операционку на ассемблере нормальному разработчику вовсе не надо, а вот понимать, что такое многопоточность - не помешает. И транзисторы тут ни при чем.
  • Начало изучения нейронных сетей, с чего начать?

    @dmshar
    Слава Богу, что мы не медициной занимаемся. А то были бы тут советы - "хотите заниматься хирургией - не слушайте тех, кто говорит об изучении анатомии первым делом. Начните с самых попсовых туториалов, познакомьтесь с возможностями, попробуйте кого-нибудь разрезать и зашить, делайте свои операции (не обязательно великие, просто ради того, чтобы потыкать скальпелем в больного). Как только отрежем что-тот не то и осознаем, что нужна теоретическая база - переходим к анатомии и диагностике. Иначе мотивация пропадет почти сразу". Бредово звучит? Бредово. А вы считаете, что заниматься нейросетями это проще? Что-то на уровне квартального сантехника - пришел, потыкал в трубу, поменял прокладку или поливалку душа? Просто для смеха, посмотрите, сколько и на этом форуме и на SO совершенно идиотских вопросов, причина которых именно в том, что "а зачем учить азы, давайте сразу начинать писать готовые нейросети". И в довершении - моя любимая картинка, уже неоднократно светившаяся на этом форуме, но никак не утратившая своей актуальности. И сколько таких недоучек уже стоят в очередь на собеседования. А сколько уже себе лбы поразбивали, навсегда привив себе таким подходом отвращение к теме. 5f3c4cb7bdf56265835820.png
  • Как находить такие "аномалии" в выборке?

    @dmshar
    BitNeBolt, Вообще-то есть целый раздел в Мachine Learning и ее применениях для (технической) диагностики/мониторинга объектов, который называется "обнаружение аномалий". Который в свою очередь делиться на "обнаружение выбросов", обнаружение novelty" и на "change point detection". В зависимости от поставленной задачи и особенностей набора данных могут применяться (и будут "лучше работать") разные методы. Однозначного ответа нет. Но даже в ваших данных видно, что метод "обрезаем по среднему значению" подходит только, если есть абсолютный ноль. А в жизни так бывает не всегда. Так что однозначного ответа нет. Всегда надо пробовать и сравнивать несколько. Конечно, если речь идет о профессиональном подходе и о задачах, когда ошибка (кстати - тоже разная - первого, второго рода - для разных задач имеет большую важность) может обойтись дорого.
    А для учебного применения или "для себя" - ну можно и "по среднему".
  • Как находить такие "аномалии" в выборке?

    @dmshar
    На дилетантском уровне - да. Для серьезного применения - не подходит.
  • Как сделать генерацию случайных номеров?

    @dmshar
    Kadabrov, И так нельзя делать! Ваш пример не порождает данные с первым нулем. Типа "0123456789". Как вы понимаете, такие номера нельзя считать случайными в диапазоне от 1 до 999999999.
  • Как соотносится дисперсия с sd?

    @dmshar
    askhabaliev, Определяют, как ее-же определяют и среднее отклонение, и стандартное отклонение и ковариация, и полуквартильное отклонение и некоторые другие статистики. Толькот не "мерУ", а "мерЫ".

    Но к "числу сигм" это отношения не имеет.
  • Как сделать генерацию случайных номеров?

    @dmshar
    Kadabrov, Перед тем, как давать совет, вы бы проверили его. Это же элементарно!

    import random
    random.randint(1000000000,999999999)


    Результат:

    import random
    random.randint(1000000000,999999999)
    Traceback (most recent call last):
    File "", line 2, in
    random.randint(1000000000,999999999)
    File "C:\ProgramData\Anaconda3\lib\random.py", line 222, in randint
    return self.randrange(a, b+1)
    File "C:\ProgramData\Anaconda3\lib\random.py", line 200, in randrange
    raise ValueError("empty range for randrange() (%d,%d, %d)" % (istart, istop, width))
    ValueError: empty range for randrange() (1000000000,1000000000, 0)


    Хороший совет.
  • Как соотносится дисперсия с sd?

    @dmshar
    askhabaliev, Т.е. ни одной книги вы так и не прочли. Печалька.

    Иначе бы вы знали, что размах - это характеристика выборки, а дисперсия - характеристика генеральной совокупности. Которая только приближаться может выборкой. И знали бы, что при sd=10 отклонение от матожидания может быть хоть три, хоть десять, хоть сто сигм - вопрос только в вероятности таких событий.
    А так-же знали бы, что размах и дисперсия - две разные величины, и если размах = 100, то дисперсия никак не будет равной 100.
    И поняли бы, что ответ на вопрос "Говорит ли корень из дисперсии о числе сигм как о совокупности в виде целого размаха?" - однозначно "нет", потому что это не вопрос, а просто какой-то бессвязный набор математических терминов.
  • Как соотносится дисперсия с sd?

    @dmshar
    askhabaliev, Это вы проверяете наше знание статистики, или хотите, что-бы мы подтвердили то, что вам рассказал преподаватель?
    В любом учебнике по статистике черным по белому, на всех языках мира написано - если данные распределены согласно нормальному закону распределения, то 99.7% всех наблюдений попадают в диапазон +/- 3 сигма. И даже в Википедии это написано.
    В чем ваш вопрос заключается?
  • Проблемы после переустановки Anaconda. Как исправить?

    @dmshar
    Полезная информация. Кому-то может помочь.
  • Учат ли наши отечественные ВУЗы Big data?

    @dmshar
    Диф.анализ - это чисто методы решения диф.уравнений и систем - в полных, частных производных, с изменяющимися коэффициентами, с вероятностными коэффициентами и пр. . Вещь интересная, но в Биг Дате малоприменимая. "Системная динамика" - примерно то-же, но уже больше с приложением к реальным задачам. То-же больше в системах управления применяется, чем в Machine Learning и Биг Дата .Я бы ваши список расширил методами Дата майнинга (классификация, кластеризация и пр), Анализом временных рядов, Нейросетями, Методами потоковой обработки данных и Системами параллельных вычислений (Hadoop, Spark, Kafka).

    Впрочем, в 10-м классе надо грызть школьную математику, что-бы потом хоть в ВУЗ взяли. И что-бы потом в понимать то, чему там учить будут.

    Р.S. Не знаю как вы, но я замечаю, что примерно два года как термин "Биг дата" все нормальные (не хайповые и не блого-журнальные) авторы стараются избегать. Изжил этот термин себя и скомпроментировал. Поняли, что есть методы - "Machine Learning Analysis", есть их техническая поддержка-реализация - "Machine Learning Engineering" и есть прикладная интерпретация "Business Analysis". Остальное - маркетинг и завлекалочка.