Ответы пользователя dmshar по тегу «Математическая статистика» — Хабр Q&A

Задать вопрос

Ответы пользователя по тегу Математическая статистика

Как соотносится дисперсия с sd?

dmshar @dmshar

Специально для вас сгенерировал нормальнораспределенные данные с вашими параметрами - М = 50, sd=10.
и построил их гистограмму.
Как легко видеть, в диапазоне от 20 до 80 лежат именно эти самые 99.7% данных. А что вы имели ввиду, когда писали "не сходится то что 60 это 99,73%" и "т.е 60 наблюдей в этом диапазоне [20;80] это 99,73% ?"- то непонятно, ни что вы в виду имели, ни что с чем не сходится. ни причем тут диапазон (60) а к проценту количества наблюдений (99,73%).

Ответ написан более трёх лет назад

15 комментариев

15 комментариев
Какие знания из математики нужны для изучения математической статистики?

dmshar @dmshar

Обычно статистика предваряется изучением теории вероятностей. Вот для ее понимания необходимо иметь представление о том, что такое предел и что такое интеграл. Ну и основы комбинаторики. Потом в матстатистике нелишним окажется понимание что такое оптимум, как его искать аналитически и численными методами. По мере усложнения понадобиться линейная алгебра, понимание векторного исчисления, ну и многомерная оптимизация. (Кстати, учебником "на все времена" и "для всех" считается книга Вентцель Е.С - вот она самодостаточна, кстати.)

Есть несколько полезных ресурсов. Там в основном говорят про Machine Learning, но на самом деле - их можно трактовать и как "Статистические науки"
https://habr.com/ru/post/432670/
https://www.datasciencecentral.com/profiles/blogs/...
https://www.analyticsvidhya.com/blog/2019/10/mathe...

Вот в этой, весьма неплохой книге - вообще никаких тебе сложных математических основ.
loveread.ec/view_global.php?id=76269

А вообще-то курс типа Фихтенгольца и курс Теорвера и Матстатистики - это паралельные ветки математики, пересекающие друг друга. Но взаимовлияние их - если не залазить в глубокие дебри, как это делается на математических факультетах приличных универов - достаточно ненапряжное. Другое дело, что пойти курс классической высшей математики - очень полезно, так как именно там вырабатывается общая математическая культура и умение математически мыслить.
Но если такой цели нет, а матстат нужно только для оценки - то можно этим и не заморачиваться. Вон, экономисты и даже медики изучают статистику без всяких Фихтенгольцев и ничего, живут себе.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Каким образом находится медиана в данной гистограмме?

dmshar @dmshar

По гистограмме такие вещи никто не определяет, ну, разве что кроме моды, которая - однозначно, самый высокий столбец гистограммы.
Однако на вашей высокохудожественной, но абсолютно неинформативной картинке совершенно непонятно, столбик относится к Х справа от него, или слева?
Предположим, что столбик справа, значит мода - 13.
Медиана - надо посчитать площадь прямоугольников, потом выбрать точку такую, в которой площадь слева и справа равны. Поскольку в вашем случае имеем только высокохудожественный рисунок, надо считать не площадь, а высоты ваших столбиков. Как-то очень по мазохистски это делать без данных. На глаз я бы сказал, что медиана будет 15 (зеленая полоса), т.к. слева - примерно 80+примерно 50=примерно 130 . Справа - посчитать сложно, примерно так оно и будет.
Среднее - единственное из трех параметров выборки, которое может быть дробным. Т.о. - это синяя полоса. Определить его значение по рисунку не возможно в принципе.

Ответ написан более трёх лет назад

4 комментария

4 комментария
Какой раздел статистики решает задачу идентификации?

dmshar @dmshar

Конечно, статистика этим не занимается. Решение вашей задачи - типичная задача классификации (диагностирования) из области Machine Learning. А уж там "по метсу" -надо подбирать наиболее адекватный подход - Метод ближайших соседей, Деревья решений, нейросети и пр.- на сколько хватит сил, ресурсов и энтузиазма.
Библиотеки Python -Sklearn, Scipy, в первою очередь. Полезете в нейросети - Tensorflow, Keras, Pytorch

Ответ написан более трёх лет назад

Комментировать

Комментировать
Разобраться в задачке по терверу?

dmshar @dmshar

Начните отсюда:
Вентцель Е.С. Теория вероятностей

Ответ написан более трёх лет назад

Комментировать

Комментировать
Что нужно изучать для глубокого анализа данных?

dmshar @dmshar

Начните с Мат.Анализа, раз уже такое слово выучили. Не пропадать же "областям из наук". А "чтобы выявить большое количество инсайтов из данных" - так вам лучше сразу в разведку. Чего мелочиться. (Кстати, объясните нам, неучам, что такое "инсайты из данных", пожалуйста.)

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как правильно построить усреднённые оценки по выборке?

dmshar @dmshar

Все зависит от того, что вы в итоге хотите получить, и главное - зачем.
Что вы называете "корректным результатом"?
Если вас интересует время, которое затрачивает "усредненный" человек на ответ на конкретный вопрос - то чем вас смущает то, что один отвечает за 1 секунду, а другой - за 10? Вы же хотите учесть всех? Ну значит считаем среднюю (или медиану) со своим доверительным интервалом и среднеквадратичное отклонение.
По таким данным вы потом вполне корректно можете оценить, на сколько любой новый тестируемый отличается от "среднего" тестируемого. Или даже при желании проранжировать своих тестируемых. Если у вас две группы тестируемых, то можете корректно ответить на вопрос, отличаются ли статистически значимо результаты в первой и во второй группах.
То, что кто-тот будет нажимать не задумываясь, вы этим тестом не выясните никак. Вот лично я (правда, не нажимая кнопки, просто - читая ваш вопрос) ответил на каждый меньше, чем за секунду. (Причем, я уверен, что ответил правильно :-) )И что? Я задумывался или нет?
А если человек "завис" на каком-то вопросе, то это вовсе не говорит о том, что он не знает ответа. Может его в ступор загнало сомнение "что за дурь, неужели это серьезный вопрос, где подвох, ибо ответ-же очевиден". Особенно при чтении нескольких первых нескольких вопросов.
Кроме того, методически ваш тест весьма сомнителен. Что на самом деле выясняется - скорость ответа на вопросы или умение быстро читать? А может быть скорость моторики и координация движений испытуемого (умение быстро нажимать кнопки тоже требует определенных навыков).

Ответ написан более трёх лет назад

2 комментария

2 комментария
Есть ли где-нибудь в доступе информация о частоте использования отдельных символов unicode в разных стилях текста и на разных языках?

dmshar @dmshar

1. Какое отношение Unicode имеет к кодировке ср1251? (Подсказка ср1251 - 8-битная кодировка, Unicode - как минимум 16-битная)
2. Какое отношение к "разным языкам" имеет ср1251(Подсказка ср1251 - кирилическая, а по сути - русскоязычная кодировка)
3. Что означает "мертвость" символа? Ну например, символ "~" почти мертвый. И это не зависит ни от стиля текста, ни от языка.
4. Современный вариант Unicode (по состоянию на май 2019) содержит 137 994 символов. Как ві себе представляете таблицу с частотой их использования?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Статистика для data science. С чего начать?

dmshar @dmshar

Повторял и повторяю. Первое, чему должен научиться любой школьник, желающий стать специалистом по Data Seince - это умению САМОСТОЯТЕЛЬНО искать в сети хотя-бы элементарную, первичную информацию.
Не понимаю, неужели проще писать вопрос на форуме, часами ждать ответов, потом разбираться в них, отсеивать ложные, препираться с ответившими и пр. и тратить на это несколько дней, чем за 20 секунд набрать в Гуугле "статистика и анализ данных", через пять секунд на первой-же странице получить исчерпывающий список и книг, и сайтов, и блогов, и видео по теме и ровно через минуту начать заниматься тем, что тебя интересует? А на форум идти тогда, когда что-тот конкретное станет непонятным?

Подсказка - если Гуугл отключен, то на этом-же форуме туча аналогичных вопросов. Просто слово в слово. Вы их смотрели, анализировали? Они вам чем-то не подошли или вы засомневались в компетентности ответов?

Ответ написан более трёх лет назад

2 комментария

2 комментария
Какие статистические методы применимы к неслучайным величинам?

dmshar @dmshar

Если вы хотите "Научно" подойти к вопросу, то начните, хотя-бы с изучения терминологии.
Y=sin(X) - тут Y неслучайная величина.
Y~sin(X) - а тут Y - уже случайная.
Курс валюты будет неслучайной величиной только в случае, если его насильно устанавливает Центробанк. Вот в СССР курс USD/RUR был точно неслучаен.
А сегодняшние курсы (котировки) валют - величины абсолютно случайные (в терминах мат.статистики, разумеется).
И это раз.
Все перечисленные вами стат.характеристики - а так-же неперечисленые - вполне себе применимы к вашим примерам. Хотите подходить научно - изучайте науку, которая называется "математическая статистика" для начала.
Это два.
Для изучения "зависимостей неслучайных величин" (или неслучайных зависимостей любых величин) используются представление таких зависимостей в виде функций, изучаемых начиная с пятого класса средней школы. Ну, например Закон Ома - это неслучайная (да и то в определенных пределах) зависимость трех величин. Только вот все это к случайным величинам, коими являются котировки валют - отношения не имеет от слова совсем.
Это три.
То что вы хотите подойти "научно" к задаче Форекса - похвально с точки зрения поощрения научной любознательности, но абсолютно вредно - с точки зрения житейской целесообразности. Полезно - потому как "по дороге", если хватит усердия и не проиграетесь, будет шанс изучить абсолютно все статистические методы - вплоть до искусственных нейросетей, генетических алгоритмов и фрактального анализа - которые в этой области уже применяются лет семьдесят. Вредно - потому как практически никто это задачу не решил и похоже в ближайшие - и не только будущее - решению она не поддастся. Почему - это уже более глубокий вопрос.
Это четыре.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как называется эффект схожих данных абсолютно разных типов выборок?

dmshar @dmshar

Ложная корреляция. (spurious correlation)
tylervigen.com/spurious-correlations?imm_mid=0f155...
https://www.finam.ru/analysis/newsitem718AB/
P..S. Корреляция - это когда связь между данными все-же существует. А ложная корреляция - это когда формальными методы показывают как бы наличие такой связи, а вот логика и семантика говорит, что ее нет. Кроссовки и урожайность - неплохой пример второго, но никак ни первого.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какие есть книги по статистике на русском языке?

dmshar @dmshar

(почти) Все, что вы перечислили - это уже не статистика. А Data Mining и Machine Learning.
Вообще-то "бутстрап и факторный анализ" через запятую несколько умилили если честно. И интересно, " логистическая/смешанная регрессия, кластеризация" вас интересует, а классификация - нет?
А зачем вам "хорошие книги" если вы не разобрались с тем, что изучать собрались?
Кстати, вы уже спрашивали нечто подобное
Математика для Теории вероятностей и нейронных сетех?
и получили ответ. Вы его уже хотя-бы обдумали (я не говорю, освоили)? Чем он вас не устроил? Может, все таки стоит начать с того, что-бы хотя-бы поверхностно разобраться "что есть что", а уж потом искать "хорошие книги"?

Ответ написан более трёх лет назад

3 комментария

3 комментария
С помощью каких критериев проверяются статистические гипотезы относительно доли признака и относительно математического ожидания?

dmshar @dmshar

Не могу понять, это праздный вопрос - т.е. шли по улице, вдруг осенило - "а как это сделать"? Дай-ка спрошу у сообщества. Или этот вопрос - результат попыток глубоко изучения соответствующих книг и сайтов и непонимания каких-то вычитанных там сложнейших выкладок? Вот что заставляет задать вопрос даже не Гууглу, а на сайте? Вопрос, ответы на который есть на первых страницах ЛЮБОЙ книги для начинающих изучать статистику.
Ну, если вдруг вас уже отключили от Гуугла и интернет у вас отказался работать подсказываю, что гипотезы относительно математического ожидания двух нормальнораспределенных выборок проверяются с помощью T-критерия Стьюдента.
Проверка нулевой гипотезы о равенстве долей выполняется т.н. Z-критерием, являющимся модификацией предыдущего.
Рекомендую вот такую книгу для начального ознакомления:
С. Гланц Медико-Биологическая Статистика.
Вообще-то она есть в свободном доступе в сети, но если у вас проблемы с интернет - тогда точно, в библиотеку.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Проверка гипотезы на случайных (или неизвестного источника) числовых данных в виде ряда. Вопрос организации?

dmshar @dmshar

1. Это только я не вижу "горизонтальных линий"?
2. Если "интересно применить" и не жалко потерять собственные деньги, то вопрос-то в чем?

Ответ написан более трёх лет назад

16 комментариев

16 комментариев
Есть ли возможность считать медиану выборки инкрементально?

dmshar @dmshar

Есть, и называется это Streaming Median:
https://programmingpraxis.com/2012/05/29/streaming...
https://habr.com/post/264987/
https://www.cse.wustl.edu/~jain/papers/ftp/psqr.pdf

Ответ написан более трёх лет назад

3 комментария

3 комментария
Математика для Теории вероятностей и нейронных сетех?

dmshar @dmshar

А что, просто посмотреть хотя-бы сам Тостер - непосильная задача?
Сдедаю это за вас.
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
Список литературы(или курсов) МАТЕМАТИКИ для Data Scientist?
Можно ли по книгам из серии «Математика в техническом университете» изучать математику для ML?
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
Хватит? Так это я еще в Гуугл не залез с вашим вопросом.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Какой используется метод для обнаружения аномалии в случайной последовательности?

dmshar @dmshar

Эх, поздно увидел вопрос - не тот тег вы ему дали.
Тут уже напридумывали-насоветовали такого.... В то время, как задача у вас абсолютно классическая, хорошо изученная, описанная и даже в учебники включенная. Другое дело, что и методов ее решения много - в зависимости от особенностей данных с которыми вы работаете.
Называется то, что вы хотите сделать - "поиск аномалий во временных рядах". По этой фразе гуглится легко. Для входа в тему можно начать, например, вот отсюда:
https://dyakonov.org/2017/04/19/поиск-аномалий-ano...
или вот отсюда
https://www.datascience.com/learn-data-science/fun...
Есть и более серьезные описания. Если заинтересует - подскажу.
P.S. Забыл сказать - правильные теги для вашего вопроса - "Машинное обучение", "Data science", "Математическая статистика", "Data mining", ну, может еще с большой натяжкой - "Нейронные сети".

Ответ написан более трёх лет назад

Комментировать

Комментировать
Техники и методы анализа преобразованных данных?

dmshar @dmshar

Выбор метода анализа данных зависит от целей, которые ставит перед собой исследователь - в первую очередь.
На столь общий вопрос - "максимально, и в полном объеме распознать скрытые закономерности и зависимости в табличных данных" - можно дать только общий ответ - любыми методами регрессионного, классификационного, кластерного, факторного анализа.
"Готовые тесты" - наверное имеется ввиду "библиотеки для анализа данных". При ваших небольших объемах данных - также могут подойти любые. От EXCEL или SPSS scikit-learn, до scikit-learn или любых библиотек на основе искусственных нейронных сетей.
В общем - хотите конкретных ответов - детализируйте вопрос.

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
Какие виды анализа аналоговых рядов бывают?

dmshar @dmshar

Уже даже не смешно.
В предыдущем вашем вопросе уже сказали, что эти данные называются "временнЫе ряды". По английски - Time Series. По немецки - Zeitreihe. По украински - "часові ряди". По польски - Szereg czasowy. По французски - série temporelle.
Вам даже дали кучу ссылок, на сайты и книги, где тема раскрывается с разных сторон. Теперь вы хотите это назвать "аналоговыми рядами"??? Ну называйте, если вам этот термин нравиться больше. Только объясните, чем вам не угодил тот термин, которым уже лет 150 пользуется все (статистически) образованное человечество.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Какие эффективные методы для обработки больших массивов данных?

dmshar @dmshar

1. 500 тыс. чего? Записей? Какой объем записи? Но вообще-то говоря, данные такого объема "большими" считать не приходится - это вполне умеренные объемы для практически любых современных задач и соответственно - современных инструментов работы с данными.
2. Данные указанного типа - относятся к т.н. временнЫм рядам. Классика жанра, если временнЫе метки задают равные интервалы, но и в противном случае - можно работать с такими данными относительно легко - главное, понимать, что же с этой информацией вы хотите сделать.
3. Форма визуализации времаннЫх рядов - различного рода графики. Ось Х - время, ось Y - значения ряда. Впрочем, могут быть и другие представления, в зависимости от цели такой визуализации.
4. С такими данными обычно решают два класса задач. Либо по набору значений ряда в прошлом выполняют предсказание значений, которые ряд будет принимать в будущие моменты времени. Либо обнаружение в прошлых значениях ряда некоторых аномалий. Тут может быть два варианта - либо выявление выбросов, т.е. единичных точек, чье поведение противоречит модели поведения ряда, либо выявление момента смены собственно самой модели поведения ряда.
5. Да, "специалисты по статистике" тут - наверное, к вашему удивлению - тут есть.
6. "не могу сформулировать задачу, т.к. не владею предметной областью статистики -- а вы сформулируйте свою задачу в своей предметной области, а специалисты по статистике вам потом помогут.

Ответ написан более трёх лет назад

8 комментариев

8 комментариев

Самые активные сегодня

Alexander Ivanov
- 4 ответа
- 0 вопросов
Dark Hacker
- 3 ответа
- 1 вопрос
alexalexes
- 3 ответа
- 0 вопросов
Valentin Barbolin
- 3 ответа
- 0 вопросов
Everything_is_bad
- 3 ответа
- 0 вопросов
DrRen7
- 3 ответа
- 0 вопросов