Задать вопрос
  • Какие технологие модные в data scince и big data?

    @dmshar
    Ничего себе вопросец :-).
    Ну, в общем, если интересует, что в тренде - то вот "почти последние" обзоры на тему. Даже - с кратким описанием.
    ru.datasides.com/big-data-analytic-tools
    www.kdnuggets.com/2016/06/r-python-top-analytics-d...
    www.itpro.co.uk/strategy/28161/the-best-big-data-t...
    Думаю, для начала более, чем хватит.
    Ответ написан
    Комментировать
  • Как по-простому определить наличие кластеров во временных данных?

    @dmshar
    Если делать все "как надо", то первым делом надо ответить на вопрос - распределение выборки отличается от равномерного или нет. Если отличается - то тогда можно идти дальше - искать кластеры, или выяснять, какое у выборки (а через нее - и у генеральной совокупности) распределение в действительности, и т.д. По большому счету, в дальнейшем даже выбор метода кластеризации, если его делать "правильно", должен зависеть и от результат этого этапа в том числе. Если-же не отличается - ну тогда и так все ясно, дальнейших исследований не требуется. Не забудьте после применения критерия проверить значимость полученных результатов, что-бы понимать, на сколько им можно доверять.

    Для определения "равномерности" выборки существуют ряд специальных критериев, наиболее распространенный из которых - т.н. критерий Шермана. Вычислительно простой и статистически мощный. (Существуют и другие критерии, но оптимальный выбор конкретного критерия - это уже тема более глубокого анализа).

    И еще хочу обратить ваше внимание, что кластеризация временнЫх рядов (именно рядов!) - это немного другое, чем просто кластеризация значений этих самых рядов (по сути, не отличающееся от кластеризации статических данных). Разные цели и разные методы.
    Ответ написан
    2 комментария
  • Смысл математического ожидания, дисперсии и среднеквадратического отклонения?

    @dmshar
    Могу порекомендовать вот такую книгу: С. Гланц. Медико-биологическая статистика.
    Есть в интернете.
    Поскольку книга написана для лекарей и прочих биологов, все понятия даются предельно ясно, понятно и без множества формально-формульных определений. Более простого объяснения этих понятий для "чайников" я не встречал. Вместе с тем книга написана так, что тот, кто не ставит сделать статистику своей специальностью, а хочет лишь научиться ею правильно пользоваться, вполне может это сделать, начав свое обучение именно с этой книжки.
    И не смотрите, что она "для врачей", она вполне подходит и для других желающих.
    Ответ написан
    1 комментарий
  • Существует ли нейронная сеть для поиска коэффициента корреляции?

    @dmshar
    К ответу коллеги дополню - этот коэффициент применим только если известно, что исходные данные имеют нормальное распределение и если они (данные) измерены в шкалах интервалов или отношений. Для данных измеренных в других шкалах - порядка, номинальной, дихатомической - используют другие аналоги данной формулы.
    Литература - если для справки - Кобзарь А.И "Прикладная математическая статистика".
    Если для изучения - любая книга по матстатистике, где есть раздел "корреляционный анализ".
    Ответ написан
    Комментировать
  • Возможна ли ситуация, когда при сравнении двух рядов существует несколько коэффициентов корреляции?

    @dmshar
    Из одного ряда можно получить много коэффициентов корреляции используя автокорреляцию с разным лагом.
    Можно напридумывать все что хотите. Вопрос - зачем? Если объясните - можно будет более разумно выбрать инструмент.
    Ответ написан
    Комментировать
  • Магистратура/(PhD?) Data Science в Европе?

    @dmshar
    Посмотрите здесь:
    www.kdnuggets.com/education/europe.html
    На счет - что лучше.... Вы действительно считаете, что кто-то проучился на нескольких таких программ и может квалифицированно их сравнить?
    Ответ написан
    Комментировать