Комментарии пользователя dmshar — Хабр Q&A

Задать вопрос

Комментарии

Обоснованность бутстрап метода.Почему можно экстраполировать на генеральную совокупность?

dmshar @dmshar

Давайте все по порядку.
Во первых, именно для вашего случая скорее всего применять бутстреп смысла особого нет. Если вы верите, что данные распределены по нормальному закону или близкому к нему (ну, или по какому другому из известных законов) - считаете среднее по выборке, считаете доверительные интервалы (при выбранном уровне значимости) и делаете соответствующее заключение обо всей генеральной совокупности.
Если у вас какое-то замысловатое распределение, например многомодальное, или седловое, вы не знаете его параметров и/или если у вас очень мало данных для получения достоверного результата - тогда на помощь приходит бутстреп. Вы отловили своих 300 человек и пытаетесь с их помощью смоделировать всю выборку. Берете из них 10000 раз по двести и считаете свой параметр. Потом по полученным 10000 образцов строите распределение этого параметра - а далее его доверительный интервал. Понятно, что это не идеально, но это возможность работать в условиях малых выборок. И понятно, что такой вывод может оказаться точнее, чем вывод по 300 экземплярах.
Но скорее всего именно для среднего значения, при 1000 образцах и генеральной совокупности порядка миллионов - разница от классического подхода будет не существенна.

Написано более трёх лет назад
Может ли sd=2, если размер выборки 25?

dmshar @dmshar

Вы продолжаете настаивать, что

Ведь дисперсия как-то приближается к размаху т.к к количеству элементов в выборке
т.е в моем представлении, дисперсия должна быть близка к размеру выборки

в момент как мы делим на размер выборки получаем почти тот же результат, что если бы мы просто извлекли корень из числителя

вы только не нервничайте, выпейте валерьянки
- а вы хам. Продолжайте оставаться в своей дремучей невежественности. И не забудьте повторить математику начиная с 5-го класса.

Написано более трёх лет назад
Может ли sd=2, если размер выборки 25?

dmshar @dmshar

Вы прикалыватесь?
Есть набор данных 70,90,100,110,130.
Покажите пошагово, как вы получили 2116 и 46.097. Дисперсию и стандартное отклонение.

Написано более трёх лет назад
Может ли sd=2, если размер выборки 25?

dmshar @dmshar

Сколько??? Как вы считаете дисперсию и стандартное отклонение? По какой дивной формуле???

Написано более трёх лет назад
Может ли sd=2, если размер выборки 25?

dmshar @dmshar

askhabaliev,
Вы неправильно понимаете формулу дисперсии. Она же четко и однозначно приведена выше.
Неужели вам не понятно, что в числителе не "признак возводится в квадрат", а разности мезду средним значением и признаком?????????????
и в момент как мы делим на размер выборки получаем почти тот же результат, что если бы мы просто извлекли корень из числителя
Чего??? А если у вас N=10000 ????
Подозреваю, что повторение математики вам следует начинать не с 8-го, а с 5-го класса.
Предлагаю вам решить элементарную задачу.
Есть пять чисел 70,90,100,110,130.
Чему равен размах?
Чему равна sd?
По дороге не забудте посмотреть, чему будет равен "просто" корень из числителя.

Если вы не желаете читать учебники, то могу посоветовать нанять репетитора.
Я в его роли выступать точно не хочу. Но с такими знаниями математики не понимаю, зачем вам статистика. И уж точно, в любом техническом универе вам будет неимоверно трудно.

Написано более трёх лет назад
Может ли sd=2, если размер выборки 25?

dmshar @dmshar

Формула несмещённой оценки дисперсии случайной величины

S^2 - это СРЕДНЕЕ значение отклонения ЗНАЧЕНИЙ от среднего. Вопрос - как оно может оказаться "приблизительно равно то-ли размеру то-ли размаху выборки"? Откуда вы это взяли????

Если ответить не можете - повторите курс школьной математики, тему "среднее значение" (думаю, что это 8-ый или 9-ый класс.

Написано более трёх лет назад
Может ли sd=2, если размер выборки 25?

dmshar @dmshar

То, что в числителе - НИКАКОГО отношения к размеру выборки не имеет. Так все таки, в каком классе вы учитесь?

Написано более трёх лет назад
Начало изучения нейронных сетей, с чего начать?

dmshar @dmshar

Tholgar31, А какой "деятельный совет" вы хотите получить? Ну вот один из них, - https://qna.habr.com/answer?answer_id=1695183#comm...

Написано более трёх лет назад
Начало изучения нейронных сетей, с чего начать?

dmshar @dmshar

freeExec, Если все сначала доводить до абсурда, а потом гордо этот абсурд опровергать - то вы правы. Но вот только зачем?
Кстати, прочитать "кучу книг про кибернетику" - это вы считаете излишним для специалиста, который так или иначе в этой области (как бы ее не переименовывали) собирается работать? Ну да, спец по Информтехнологиям сегодня - это тот, кто выучил два десятка функций на РНР да освоил полтора фрейморка.
И еще, лезть писать операционку на ассемблере нормальному разработчику вовсе не надо, а вот понимать, что такое многопоточность - не помешает. И транзисторы тут ни при чем.

Написано более трёх лет назад
Начало изучения нейронных сетей, с чего начать?

dmshar @dmshar

Слава Богу, что мы не медициной занимаемся. А то были бы тут советы - "хотите заниматься хирургией - не слушайте тех, кто говорит об изучении анатомии первым делом. Начните с самых попсовых туториалов, познакомьтесь с возможностями, попробуйте кого-нибудь разрезать и зашить, делайте свои операции (не обязательно великие, просто ради того, чтобы потыкать скальпелем в больного). Как только отрежем что-тот не то и осознаем, что нужна теоретическая база - переходим к анатомии и диагностике. Иначе мотивация пропадет почти сразу". Бредово звучит? Бредово. А вы считаете, что заниматься нейросетями это проще? Что-то на уровне квартального сантехника - пришел, потыкал в трубу, поменял прокладку или поливалку душа? Просто для смеха, посмотрите, сколько и на этом форуме и на SO совершенно идиотских вопросов, причина которых именно в том, что "а зачем учить азы, давайте сразу начинать писать готовые нейросети". И в довершении - моя любимая картинка, уже неоднократно светившаяся на этом форуме, но никак не утратившая своей актуальности. И сколько таких недоучек уже стоят в очередь на собеседования. А сколько уже себе лбы поразбивали, навсегда привив себе таким подходом отвращение к теме.

Написано более трёх лет назад
Как находить такие "аномалии" в выборке?

dmshar @dmshar

BitNeBolt, Вообще-то есть целый раздел в Мachine Learning и ее применениях для (технической) диагностики/мониторинга объектов, который называется "обнаружение аномалий". Который в свою очередь делиться на "обнаружение выбросов", обнаружение novelty" и на "change point detection". В зависимости от поставленной задачи и особенностей набора данных могут применяться (и будут "лучше работать") разные методы. Однозначного ответа нет. Но даже в ваших данных видно, что метод "обрезаем по среднему значению" подходит только, если есть абсолютный ноль. А в жизни так бывает не всегда. Так что однозначного ответа нет. Всегда надо пробовать и сравнивать несколько. Конечно, если речь идет о профессиональном подходе и о задачах, когда ошибка (кстати - тоже разная - первого, второго рода - для разных задач имеет большую важность) может обойтись дорого.
А для учебного применения или "для себя" - ну можно и "по среднему".

Написано более трёх лет назад
Как находить такие "аномалии" в выборке?

dmshar @dmshar

На дилетантском уровне - да. Для серьезного применения - не подходит.

Написано более трёх лет назад
Как сделать генерацию случайных номеров?

dmshar @dmshar

Kadabrov, И так нельзя делать! Ваш пример не порождает данные с первым нулем. Типа "0123456789". Как вы понимаете, такие номера нельзя считать случайными в диапазоне от 1 до 999999999.

Написано более трёх лет назад
Как соотносится дисперсия с sd?

dmshar @dmshar

askhabaliev, Определяют, как ее-же определяют и среднее отклонение, и стандартное отклонение и ковариация, и полуквартильное отклонение и некоторые другие статистики. Толькот не "мерУ", а "мерЫ".

Но к "числу сигм" это отношения не имеет.

Написано более трёх лет назад
Как сделать генерацию случайных номеров?
dmshar @dmshar
Kadabrov, Перед тем, как давать совет, вы бы проверили его. Это же элементарно!

import random random.randint(1000000000,999999999)

Результат:

import random
random.randint(1000000000,999999999)
Traceback (most recent call last):
File "", line 2, in
random.randint(1000000000,999999999)
File "C:\ProgramData\Anaconda3\lib\random.py", line 222, in randint
return self.randrange(a, b+1)
File "C:\ProgramData\Anaconda3\lib\random.py", line 200, in randrange
raise ValueError("empty range for randrange() (%d,%d, %d)" % (istart, istop, width))
ValueError: empty range for randrange() (1000000000,1000000000, 0)

Хороший совет.

Написано более трёх лет назад
Как соотносится дисперсия с sd?

dmshar @dmshar

askhabaliev, Т.е. ни одной книги вы так и не прочли. Печалька.

Иначе бы вы знали, что размах - это характеристика выборки, а дисперсия - характеристика генеральной совокупности. Которая только приближаться может выборкой. И знали бы, что при sd=10 отклонение от матожидания может быть хоть три, хоть десять, хоть сто сигм - вопрос только в вероятности таких событий.
А так-же знали бы, что размах и дисперсия - две разные величины, и если размах = 100, то дисперсия никак не будет равной 100.
И поняли бы, что ответ на вопрос "Говорит ли корень из дисперсии о числе сигм как о совокупности в виде целого размаха?" - однозначно "нет", потому что это не вопрос, а просто какой-то бессвязный набор математических терминов.

Написано более трёх лет назад
Как соотносится дисперсия с sd?

dmshar @dmshar

askhabaliev, Это вы проверяете наше знание статистики, или хотите, что-бы мы подтвердили то, что вам рассказал преподаватель?
В любом учебнике по статистике черным по белому, на всех языках мира написано - если данные распределены согласно нормальному закону распределения, то 99.7% всех наблюдений попадают в диапазон +/- 3 сигма. И даже в Википедии это написано.
В чем ваш вопрос заключается?

Написано более трёх лет назад
Проблемы после переустановки Anaconda. Как исправить?

dmshar @dmshar

Полезная информация. Кому-то может помочь.

Написано более трёх лет назад
Учат ли наши отечественные ВУЗы Big data?

dmshar @dmshar

Диф.анализ - это чисто методы решения диф.уравнений и систем - в полных, частных производных, с изменяющимися коэффициентами, с вероятностными коэффициентами и пр. . Вещь интересная, но в Биг Дате малоприменимая. "Системная динамика" - примерно то-же, но уже больше с приложением к реальным задачам. То-же больше в системах управления применяется, чем в Machine Learning и Биг Дата .Я бы ваши список расширил методами Дата майнинга (классификация, кластеризация и пр), Анализом временных рядов, Нейросетями, Методами потоковой обработки данных и Системами параллельных вычислений (Hadoop, Spark, Kafka).

Впрочем, в 10-м классе надо грызть школьную математику, что-бы потом хоть в ВУЗ взяли. И что-бы потом в понимать то, чему там учить будут.

Р.S. Не знаю как вы, но я замечаю, что примерно два года как термин "Биг дата" все нормальные (не хайповые и не блого-журнальные) авторы стараются избегать. Изжил этот термин себя и скомпроментировал. Поняли, что есть методы - "Machine Learning Analysis", есть их техническая поддержка-реализация - "Machine Learning Engineering" и есть прикладная интерпретация "Business Analysis". Остальное - маркетинг и завлекалочка.

Написано более трёх лет назад
Учат ли наши отечественные ВУЗы Big data?

dmshar @dmshar

Все верно, за исключением одного :"дифференциальный анализ" - это явно "не оттуда".

Написано более трёх лет назад

Самые активные сегодня

Александр Демин
- 5 ответов
- 0 вопросов
Евгений
- 5 ответов
- 0 вопросов
Кот Абсолютный
- 3 ответа
- 0 вопросов
pinky03
- 2 ответа
- 0 вопросов
Вячеслав Васильев
- 2 ответа
- 0 вопросов
Ярослав
- 1 ответ
- 1 вопрос