• Как предсказать время поломки/срок службы оборудования?

    @dmshar
    Есть такой раздел Data Science, который очень оптимистично называется "анализ выживаемости". Название историческое, так как изначально анализируются шансы пациентов выжить за определенный промежуток времени. Или выздороветь - в зависимости от уровня оптимизма :-).
    Так вот, в общем случае этот раздел как раз и строит модели, нацеленные в том числе на выявление вероятности поломки оборудования, вероятности свершения какого-то определенного события, попыток предсказания момента выхода оборудования из строя и т.д. Ну вот, из самого свежайшего (буквально вчерашнего) и простейшего описания этого раздела Data Science - можно прочитать тут: https://datascienceplus.com/survival-analysis-part-i/
    (Кстати, тут и объясняться, за одно, и почему классическая регрессионная модель в данном случае не работает, и в чем отличия ее от модели выживаемости).
    Из более фундаментального - statsoft.ru/home/textbook/modules/stsurvan.html
    И вообще, информации по теме много. Ключевые слова - "анализ выживаемости".
    Ответ написан
    Комментировать
  • Могли бы объяснить что такое квартиль и медианна?

    @dmshar
    Если данные распределены не по нормальному закону распределению ( а они практически всегда так распределены, просто в одних случаях - близко к нормальному, а в других - нет), то как раз среднее арифметическое есть малоинформативная величина, в отличии от медианы.
    Наглядный пример:
    Заработная плата по предприятию
    -$100, $110,$120,$130,$140,$150,$160,$170,$200,$250,$900
    Среднее - 220,9. О чем она говорит? Ага средняя зарплата вполне достойная :-)
    Медина - 150. Вполне понятно - половина людей получает меньше, вторая половина больше.
    Квартили - это разбиение выборки на четыре равные по количеству элементов в них части.
    Из ваших данных, кстати, видно, что они не очень-то нормальные.
    Ответ написан
  • Мат. статистика: какой критерий достоверности выбрать для эксперимента с одним испытуемым?

    @dmshar
    По сути - это классическая задача, описываемая в любом учебнике по анализу гипотез.
    Для "работы" в этом случае стандарт - использование двухвыборочного критерия Вилкоксона-Манна-Уитни. (Только не спутайте его с одновыборочным критерием Вилкоксона - он предназначен для другого).
    Учтите, что совсем "классический" t-критерий Стьюдента (проверка на равенство матожиданий) тут не пройдет, т.к. что бы им пользоваться, надо доказать нормальность закона распределения, на что данных явно не хватит.
    Ответ написан
    Комментировать
  • Какие технологие модные в data scince и big data?

    @dmshar
    Ничего себе вопросец :-).
    Ну, в общем, если интересует, что в тренде - то вот "почти последние" обзоры на тему. Даже - с кратким описанием.
    ru.datasides.com/big-data-analytic-tools
    www.kdnuggets.com/2016/06/r-python-top-analytics-d...
    www.itpro.co.uk/strategy/28161/the-best-big-data-t...
    Думаю, для начала более, чем хватит.
    Ответ написан
    Комментировать
  • Как по-простому определить наличие кластеров во временных данных?

    @dmshar
    Если делать все "как надо", то первым делом надо ответить на вопрос - распределение выборки отличается от равномерного или нет. Если отличается - то тогда можно идти дальше - искать кластеры, или выяснять, какое у выборки (а через нее - и у генеральной совокупности) распределение в действительности, и т.д. По большому счету, в дальнейшем даже выбор метода кластеризации, если его делать "правильно", должен зависеть и от результат этого этапа в том числе. Если-же не отличается - ну тогда и так все ясно, дальнейших исследований не требуется. Не забудьте после применения критерия проверить значимость полученных результатов, что-бы понимать, на сколько им можно доверять.

    Для определения "равномерности" выборки существуют ряд специальных критериев, наиболее распространенный из которых - т.н. критерий Шермана. Вычислительно простой и статистически мощный. (Существуют и другие критерии, но оптимальный выбор конкретного критерия - это уже тема более глубокого анализа).

    И еще хочу обратить ваше внимание, что кластеризация временнЫх рядов (именно рядов!) - это немного другое, чем просто кластеризация значений этих самых рядов (по сути, не отличающееся от кластеризации статических данных). Разные цели и разные методы.
    Ответ написан
    2 комментария
  • Смысл математического ожидания, дисперсии и среднеквадратического отклонения?

    @dmshar
    Могу порекомендовать вот такую книгу: С. Гланц. Медико-биологическая статистика.
    Есть в интернете.
    Поскольку книга написана для лекарей и прочих биологов, все понятия даются предельно ясно, понятно и без множества формально-формульных определений. Более простого объяснения этих понятий для "чайников" я не встречал. Вместе с тем книга написана так, что тот, кто не ставит сделать статистику своей специальностью, а хочет лишь научиться ею правильно пользоваться, вполне может это сделать, начав свое обучение именно с этой книжки.
    И не смотрите, что она "для врачей", она вполне подходит и для других желающих.
    Ответ написан
    1 комментарий
  • Существует ли нейронная сеть для поиска коэффициента корреляции?

    @dmshar
    К ответу коллеги дополню - этот коэффициент применим только если известно, что исходные данные имеют нормальное распределение и если они (данные) измерены в шкалах интервалов или отношений. Для данных измеренных в других шкалах - порядка, номинальной, дихатомической - используют другие аналоги данной формулы.
    Литература - если для справки - Кобзарь А.И "Прикладная математическая статистика".
    Если для изучения - любая книга по матстатистике, где есть раздел "корреляционный анализ".
    Ответ написан
    Комментировать
  • Возможна ли ситуация, когда при сравнении двух рядов существует несколько коэффициентов корреляции?

    @dmshar
    Из одного ряда можно получить много коэффициентов корреляции используя автокорреляцию с разным лагом.
    Можно напридумывать все что хотите. Вопрос - зачем? Если объясните - можно будет более разумно выбрать инструмент.
    Ответ написан
    Комментировать
  • Магистратура/(PhD?) Data Science в Европе?

    @dmshar
    Посмотрите здесь:
    www.kdnuggets.com/education/europe.html
    На счет - что лучше.... Вы действительно считаете, что кто-то проучился на нескольких таких программ и может квалифицированно их сравнить?
    Ответ написан
    Комментировать