Ответы пользователя по тегу Математическая статистика
  • Как соотносится дисперсия с sd?

    @dmshar
    Специально для вас сгенерировал нормальнораспределенные данные с вашими параметрами - М = 50, sd=10.
    и построил их гистограмму. 5f31c326b1974045390049.png
    Как легко видеть, в диапазоне от 20 до 80 лежат именно эти самые 99.7% данных. А что вы имели ввиду, когда писали "не сходится то что 60 это 99,73%" и "т.е 60 наблюдей в этом диапазоне [20;80] это 99,73% ?"- то непонятно, ни что вы в виду имели, ни что с чем не сходится. ни причем тут диапазон (60) а к проценту количества наблюдений (99,73%).
    Ответ написан
  • Какие знания из математики нужны для изучения математической статистики?

    @dmshar
    Обычно статистика предваряется изучением теории вероятностей. Вот для ее понимания необходимо иметь представление о том, что такое предел и что такое интеграл. Ну и основы комбинаторики. Потом в матстатистике нелишним окажется понимание что такое оптимум, как его искать аналитически и численными методами. По мере усложнения понадобиться линейная алгебра, понимание векторного исчисления, ну и многомерная оптимизация. (Кстати, учебником "на все времена" и "для всех" считается книга Вентцель Е.С - вот она самодостаточна, кстати.)

    Есть несколько полезных ресурсов. Там в основном говорят про Machine Learning, но на самом деле - их можно трактовать и как "Статистические науки"
    https://habr.com/ru/post/432670/
    https://www.datasciencecentral.com/profiles/blogs/...
    https://www.analyticsvidhya.com/blog/2019/10/mathe...

    Вот в этой, весьма неплохой книге - вообще никаких тебе сложных математических основ.
    loveread.ec/view_global.php?id=76269

    А вообще-то курс типа Фихтенгольца и курс Теорвера и Матстатистики - это паралельные ветки математики, пересекающие друг друга. Но взаимовлияние их - если не залазить в глубокие дебри, как это делается на математических факультетах приличных универов - достаточно ненапряжное. Другое дело, что пойти курс классической высшей математики - очень полезно, так как именно там вырабатывается общая математическая культура и умение математически мыслить.
    Но если такой цели нет, а матстат нужно только для оценки - то можно этим и не заморачиваться. Вон, экономисты и даже медики изучают статистику без всяких Фихтенгольцев и ничего, живут себе.
    Ответ написан
    Комментировать
  • Каким образом находится медиана в данной гистограмме?

    @dmshar
    По гистограмме такие вещи никто не определяет, ну, разве что кроме моды, которая - однозначно, самый высокий столбец гистограммы.
    Однако на вашей высокохудожественной, но абсолютно неинформативной картинке совершенно непонятно, столбик относится к Х справа от него, или слева?
    Предположим, что столбик справа, значит мода - 13.
    Медиана - надо посчитать площадь прямоугольников, потом выбрать точку такую, в которой площадь слева и справа равны. Поскольку в вашем случае имеем только высокохудожественный рисунок, надо считать не площадь, а высоты ваших столбиков. Как-то очень по мазохистски это делать без данных. На глаз я бы сказал, что медиана будет 15 (зеленая полоса), т.к. слева - примерно 80+примерно 50=примерно 130 . Справа - посчитать сложно, примерно так оно и будет.
    Среднее - единственное из трех параметров выборки, которое может быть дробным. Т.о. - это синяя полоса. Определить его значение по рисунку не возможно в принципе.
    Ответ написан
  • Какой раздел статистики решает задачу идентификации?

    @dmshar
    Конечно, статистика этим не занимается. Решение вашей задачи - типичная задача классификации (диагностирования) из области Machine Learning. А уж там "по метсу" -надо подбирать наиболее адекватный подход - Метод ближайших соседей, Деревья решений, нейросети и пр.- на сколько хватит сил, ресурсов и энтузиазма.
    Библиотеки Python -Sklearn, Scipy, в первою очередь. Полезете в нейросети - Tensorflow, Keras, Pytorch
    Ответ написан
    Комментировать
  • Разобраться в задачке по терверу?

    @dmshar
    Ответ написан
    Комментировать
  • Что нужно изучать для глубокого анализа данных?

    @dmshar
    Начните с Мат.Анализа, раз уже такое слово выучили. Не пропадать же "областям из наук". А "чтобы выявить большое количество инсайтов из данных" - так вам лучше сразу в разведку. Чего мелочиться. (Кстати, объясните нам, неучам, что такое "инсайты из данных", пожалуйста.)
    Ответ написан
    2 комментария
  • Как правильно построить усреднённые оценки по выборке?

    @dmshar
    Все зависит от того, что вы в итоге хотите получить, и главное - зачем.
    Что вы называете "корректным результатом"?
    Если вас интересует время, которое затрачивает "усредненный" человек на ответ на конкретный вопрос - то чем вас смущает то, что один отвечает за 1 секунду, а другой - за 10? Вы же хотите учесть всех? Ну значит считаем среднюю (или медиану) со своим доверительным интервалом и среднеквадратичное отклонение.
    По таким данным вы потом вполне корректно можете оценить, на сколько любой новый тестируемый отличается от "среднего" тестируемого. Или даже при желании проранжировать своих тестируемых. Если у вас две группы тестируемых, то можете корректно ответить на вопрос, отличаются ли статистически значимо результаты в первой и во второй группах.
    То, что кто-тот будет нажимать не задумываясь, вы этим тестом не выясните никак. Вот лично я (правда, не нажимая кнопки, просто - читая ваш вопрос) ответил на каждый меньше, чем за секунду. (Причем, я уверен, что ответил правильно :-) )И что? Я задумывался или нет?
    А если человек "завис" на каком-то вопросе, то это вовсе не говорит о том, что он не знает ответа. Может его в ступор загнало сомнение "что за дурь, неужели это серьезный вопрос, где подвох, ибо ответ-же очевиден". Особенно при чтении нескольких первых нескольких вопросов.
    Кроме того, методически ваш тест весьма сомнителен. Что на самом деле выясняется - скорость ответа на вопросы или умение быстро читать? А может быть скорость моторики и координация движений испытуемого (умение быстро нажимать кнопки тоже требует определенных навыков).
    Ответ написан
  • Есть ли где-нибудь в доступе информация о частоте использования отдельных символов unicode в разных стилях текста и на разных языках?

    @dmshar
    1. Какое отношение Unicode имеет к кодировке ср1251? (Подсказка ср1251 - 8-битная кодировка, Unicode - как минимум 16-битная)
    2. Какое отношение к "разным языкам" имеет ср1251(Подсказка ср1251 - кирилическая, а по сути - русскоязычная кодировка)
    3. Что означает "мертвость" символа? Ну например, символ "~" почти мертвый. И это не зависит ни от стиля текста, ни от языка.
    4. Современный вариант Unicode (по состоянию на май 2019) содержит 137 994 символов. Как ві себе представляете таблицу с частотой их использования?
    Ответ написан
  • Статистика для data science. С чего начать?

    @dmshar
    Повторял и повторяю. Первое, чему должен научиться любой школьник, желающий стать специалистом по Data Seince - это умению САМОСТОЯТЕЛЬНО искать в сети хотя-бы элементарную, первичную информацию.
    Не понимаю, неужели проще писать вопрос на форуме, часами ждать ответов, потом разбираться в них, отсеивать ложные, препираться с ответившими и пр. и тратить на это несколько дней, чем за 20 секунд набрать в Гуугле "статистика и анализ данных", через пять секунд на первой-же странице получить исчерпывающий список и книг, и сайтов, и блогов, и видео по теме и ровно через минуту начать заниматься тем, что тебя интересует? А на форум идти тогда, когда что-тот конкретное станет непонятным?

    Подсказка - если Гуугл отключен, то на этом-же форуме туча аналогичных вопросов. Просто слово в слово. Вы их смотрели, анализировали? Они вам чем-то не подошли или вы засомневались в компетентности ответов?
    Ответ написан
  • Какие статистические методы применимы к неслучайным величинам?

    @dmshar
    Если вы хотите "Научно" подойти к вопросу, то начните, хотя-бы с изучения терминологии.
    Y=sin(X) - тут Y неслучайная величина.
    Y~sin(X) - а тут Y - уже случайная.
    Курс валюты будет неслучайной величиной только в случае, если его насильно устанавливает Центробанк. Вот в СССР курс USD/RUR был точно неслучаен.
    А сегодняшние курсы (котировки) валют - величины абсолютно случайные (в терминах мат.статистики, разумеется).
    И это раз.
    Все перечисленные вами стат.характеристики - а так-же неперечисленые - вполне себе применимы к вашим примерам. Хотите подходить научно - изучайте науку, которая называется "математическая статистика" для начала.
    Это два.
    Для изучения "зависимостей неслучайных величин" (или неслучайных зависимостей любых величин) используются представление таких зависимостей в виде функций, изучаемых начиная с пятого класса средней школы. Ну, например Закон Ома - это неслучайная (да и то в определенных пределах) зависимость трех величин. Только вот все это к случайным величинам, коими являются котировки валют - отношения не имеет от слова совсем.
    Это три.
    То что вы хотите подойти "научно" к задаче Форекса - похвально с точки зрения поощрения научной любознательности, но абсолютно вредно - с точки зрения житейской целесообразности. Полезно - потому как "по дороге", если хватит усердия и не проиграетесь, будет шанс изучить абсолютно все статистические методы - вплоть до искусственных нейросетей, генетических алгоритмов и фрактального анализа - которые в этой области уже применяются лет семьдесят. Вредно - потому как практически никто это задачу не решил и похоже в ближайшие - и не только будущее - решению она не поддастся. Почему - это уже более глубокий вопрос.
    Это четыре.
    Ответ написан
    2 комментария
  • Как называется эффект схожих данных абсолютно разных типов выборок?

    @dmshar
    Ложная корреляция. (spurious correlation)
    tylervigen.com/spurious-correlations?imm_mid=0f155...
    https://www.finam.ru/analysis/newsitem718AB/
    P..S. Корреляция - это когда связь между данными все-же существует. А ложная корреляция - это когда формальными методы показывают как бы наличие такой связи, а вот логика и семантика говорит, что ее нет. Кроссовки и урожайность - неплохой пример второго, но никак ни первого.
    Ответ написан
    Комментировать
  • Какие есть книги по статистике на русском языке?

    @dmshar
    (почти) Все, что вы перечислили - это уже не статистика. А Data Mining и Machine Learning.
    Вообще-то "бутстрап и факторный анализ" через запятую несколько умилили если честно. И интересно, " логистическая/смешанная регрессия, кластеризация" вас интересует, а классификация - нет?
    А зачем вам "хорошие книги" если вы не разобрались с тем, что изучать собрались?
    Кстати, вы уже спрашивали нечто подобное
    Математика для Теории вероятностей и нейронных сетех?
    и получили ответ. Вы его уже хотя-бы обдумали (я не говорю, освоили)? Чем он вас не устроил? Может, все таки стоит начать с того, что-бы хотя-бы поверхностно разобраться "что есть что", а уж потом искать "хорошие книги"?
    Ответ написан
  • С помощью каких критериев проверяются статистические гипотезы относительно доли признака и относительно математического ожидания?

    @dmshar
    Не могу понять, это праздный вопрос - т.е. шли по улице, вдруг осенило - "а как это сделать"? Дай-ка спрошу у сообщества. Или этот вопрос - результат попыток глубоко изучения соответствующих книг и сайтов и непонимания каких-то вычитанных там сложнейших выкладок? Вот что заставляет задать вопрос даже не Гууглу, а на сайте? Вопрос, ответы на который есть на первых страницах ЛЮБОЙ книги для начинающих изучать статистику.
    Ну, если вдруг вас уже отключили от Гуугла и интернет у вас отказался работать подсказываю, что гипотезы относительно математического ожидания двух нормальнораспределенных выборок проверяются с помощью T-критерия Стьюдента.
    Проверка нулевой гипотезы о равенстве долей выполняется т.н. Z-критерием, являющимся модификацией предыдущего.
    Рекомендую вот такую книгу для начального ознакомления:
    С. Гланц Медико-Биологическая Статистика.
    Вообще-то она есть в свободном доступе в сети, но если у вас проблемы с интернет - тогда точно, в библиотеку.
    Ответ написан
    Комментировать
  • Проверка гипотезы на случайных (или неизвестного источника) числовых данных в виде ряда. Вопрос организации?

    @dmshar
    1. Это только я не вижу "горизонтальных линий"?
    2. Если "интересно применить" и не жалко потерять собственные деньги, то вопрос-то в чем?
    Ответ написан
  • Какой используется метод для обнаружения аномалии в случайной последовательности?

    @dmshar
    Эх, поздно увидел вопрос - не тот тег вы ему дали.
    Тут уже напридумывали-насоветовали такого.... В то время, как задача у вас абсолютно классическая, хорошо изученная, описанная и даже в учебники включенная. Другое дело, что и методов ее решения много - в зависимости от особенностей данных с которыми вы работаете.
    Называется то, что вы хотите сделать - "поиск аномалий во временных рядах". По этой фразе гуглится легко. Для входа в тему можно начать, например, вот отсюда:
    https://dyakonov.org/2017/04/19/поиск-аномалий-ano...
    или вот отсюда
    https://www.datascience.com/learn-data-science/fun...
    Есть и более серьезные описания. Если заинтересует - подскажу.
    P.S. Забыл сказать - правильные теги для вашего вопроса - "Машинное обучение", "Data science", "Математическая статистика", "Data mining", ну, может еще с большой натяжкой - "Нейронные сети".
    Ответ написан
    Комментировать
  • Техники и методы анализа преобразованных данных?

    @dmshar
    Выбор метода анализа данных зависит от целей, которые ставит перед собой исследователь - в первую очередь.
    На столь общий вопрос - "максимально, и в полном объеме распознать скрытые закономерности и зависимости в табличных данных" - можно дать только общий ответ - любыми методами регрессионного, классификационного, кластерного, факторного анализа.
    "Готовые тесты" - наверное имеется ввиду "библиотеки для анализа данных". При ваших небольших объемах данных - также могут подойти любые. От EXCEL или SPSS scikit-learn, до scikit-learn или любых библиотек на основе искусственных нейронных сетей.
    В общем - хотите конкретных ответов - детализируйте вопрос.
    Ответ написан
    6 комментариев
  • Какие виды анализа аналоговых рядов бывают?

    @dmshar
    Уже даже не смешно.
    В предыдущем вашем вопросе уже сказали, что эти данные называются "временнЫе ряды". По английски - Time Series. По немецки - Zeitreihe. По украински - "часові ряди". По польски - Szereg czasowy. По французски - série temporelle.
    Вам даже дали кучу ссылок, на сайты и книги, где тема раскрывается с разных сторон. Теперь вы хотите это назвать "аналоговыми рядами"??? Ну называйте, если вам этот термин нравиться больше. Только объясните, чем вам не угодил тот термин, которым уже лет 150 пользуется все (статистически) образованное человечество.
    Ответ написан
  • Какие эффективные методы для обработки больших массивов данных?

    @dmshar
    1. 500 тыс. чего? Записей? Какой объем записи? Но вообще-то говоря, данные такого объема "большими" считать не приходится - это вполне умеренные объемы для практически любых современных задач и соответственно - современных инструментов работы с данными.
    2. Данные указанного типа - относятся к т.н. временнЫм рядам. Классика жанра, если временнЫе метки задают равные интервалы, но и в противном случае - можно работать с такими данными относительно легко - главное, понимать, что же с этой информацией вы хотите сделать.
    3. Форма визуализации времаннЫх рядов - различного рода графики. Ось Х - время, ось Y - значения ряда. Впрочем, могут быть и другие представления, в зависимости от цели такой визуализации.
    4. С такими данными обычно решают два класса задач. Либо по набору значений ряда в прошлом выполняют предсказание значений, которые ряд будет принимать в будущие моменты времени. Либо обнаружение в прошлых значениях ряда некоторых аномалий. Тут может быть два варианта - либо выявление выбросов, т.е. единичных точек, чье поведение противоречит модели поведения ряда, либо выявление момента смены собственно самой модели поведения ряда.
    5. Да, "специалисты по статистике" тут - наверное, к вашему удивлению - тут есть.
    6. "не могу сформулировать задачу, т.к. не владею предметной областью статистики -- а вы сформулируйте свою задачу в своей предметной области, а специалисты по статистике вам потом помогут.
    Ответ написан
    8 комментариев