Ответы пользователя по тегу Аналитика
  • Какой минимальный уровень знаний для работы в анализе данных/ML?

    @dmshar
    Вариантов ответов на ваш вопрос - огромное множество. Но если информация аж трехлетней давности для вас - устарела (хотя я не понимаю, как могут устаревать базовые, фундаментальные знания . Да и более свежих версий на Тостере - навалом. Ну да ладно) , то вот вам новейшее изыскание на заданную тему
    https://dev.by/news/kak-izuchit-data-science
    Ответ написан
    Комментировать
  • Какие виды анализа аналоговых рядов бывают?

    @dmshar
    Уже даже не смешно.
    В предыдущем вашем вопросе уже сказали, что эти данные называются "временнЫе ряды". По английски - Time Series. По немецки - Zeitreihe. По украински - "часові ряди". По польски - Szereg czasowy. По французски - série temporelle.
    Вам даже дали кучу ссылок, на сайты и книги, где тема раскрывается с разных сторон. Теперь вы хотите это назвать "аналоговыми рядами"??? Ну называйте, если вам этот термин нравиться больше. Только объясните, чем вам не угодил тот термин, которым уже лет 150 пользуется все (статистически) образованное человечество.
    Ответ написан
  • Какие эффективные методы для обработки больших массивов данных?

    @dmshar
    1. 500 тыс. чего? Записей? Какой объем записи? Но вообще-то говоря, данные такого объема "большими" считать не приходится - это вполне умеренные объемы для практически любых современных задач и соответственно - современных инструментов работы с данными.
    2. Данные указанного типа - относятся к т.н. временнЫм рядам. Классика жанра, если временнЫе метки задают равные интервалы, но и в противном случае - можно работать с такими данными относительно легко - главное, понимать, что же с этой информацией вы хотите сделать.
    3. Форма визуализации времаннЫх рядов - различного рода графики. Ось Х - время, ось Y - значения ряда. Впрочем, могут быть и другие представления, в зависимости от цели такой визуализации.
    4. С такими данными обычно решают два класса задач. Либо по набору значений ряда в прошлом выполняют предсказание значений, которые ряд будет принимать в будущие моменты времени. Либо обнаружение в прошлых значениях ряда некоторых аномалий. Тут может быть два варианта - либо выявление выбросов, т.е. единичных точек, чье поведение противоречит модели поведения ряда, либо выявление момента смены собственно самой модели поведения ряда.
    5. Да, "специалисты по статистике" тут - наверное, к вашему удивлению - тут есть.
    6. "не могу сформулировать задачу, т.к. не владею предметной областью статистики -- а вы сформулируйте свою задачу в своей предметной области, а специалисты по статистике вам потом помогут.
    Ответ написан
    8 комментариев
  • На чём построить график timeline?

    @dmshar
    По описанию, которое вы дали - карандаш и бумага.
    Ну действительно, как можно рекомендовать инструмент, если нам не известно ничего - послупают-ли данные разово, либо вы мониторите свои устройства динамически, ваше приложение desk-top или данные формируются на сервере (400 машин как никак), а просматриваются на клиенте, или через веб? Надо-ли отображение в виде графика (чего именно) или достатично "лампочки" - запущен процесс на машине или нет. Надо-ли имя процесса отображать? Может-ли на одной машине быть одновременно запущенно более одного процесса? Каким образом (протоколом) данные передаются от устройства мониторинга к приложению, отображающему график? И т.д. Дайте ПОЛНОЕ описание задания, тогда и ответы будут осознаны. А так - ну скажут вам - например - grafana. Или Matplotlib. Или D3.js. Или Dygraphs. Или Tableau. А может вообще вам MS Visio подойдет? Что вы с такими ответами делать-то будете?
    Ответ написан
  • Правильно ли анализировать эффективность продаж сезонных товаров по предыдущему месяцу?

    @dmshar
    Не путайте "аналитику" с "предсказательными моделями".
    Аналитику можно строить любую, в том числе и такую, которую требует заказчик. А вот time-series forecasting проводить по предыдущему месяцу - нельзя. Да и вообще, по одному шагу назад делать прогноз вперед - бессмыслица.
    Кстати, а вот сезонную составляющую во временнОм ряду выявить и использовать для прогноза - через несколько лет анализа, разумеется - будет вполне вам по силам.
    Ответ написан
    Комментировать
  • Какой алгоритм может определить аномалии на графике?

    @dmshar
    Можно, конечно, заняться изобретением велосипеда. А можно набраться ума-разума, начав с теории. Тем более - она вам в жизни пригодится, т.к. ту задачу которую вы описали встречается в разных видах в экономике, информационной безопасности, медицине, технической диагностике, маркетинге - в том числе и аномалии посещения страниц, типа ваших - и еще в десятках других предметных областей, и изучив эту задачу вы обеспечите реальную заинтересованность в вас как специалиста десятков работодателей в будущем.
    Теория эта называется действительно по разному - "поиск и выявления аномалий", "changepoint detection", "обнаружение разладок и выбросов" и пр. В первом приближении все сводится к анализу временнЫх рядов и методам классификации, и обнаружении изменения моделей, которыми данные описываются ( "превышение уставок", выход за 3сигма и пр. - это только самые тривиальные и наивные из методов, которые сегодня применяются. Только, конечно не "процентные колебания"). Причем, если хотите все сделать по-серьезному, то надо изучать и параметры самих рядов (не только среднюю и дисперсию), проверять коррелированность посещения страниц сайтов, выявлять тренды и сезонность, проверять наличие кластеризации в данных и пр. пр.пр.
    Ну а можно, конечно, и "побыстрее", лишь бы что-то там квазиумное считало. Зато есть что заказчику показать. Тогда да - посчитали среднее, наши отклонения, нарисовали красивый график, впечатлили заказчика, получили вознаграждения, профит. Каждый выбирает свой путь.
    Ответ написан
    2 комментария
  • Какую БД использует prometeus?

    @dmshar
    Как минимум, существуют
    prometeus.net
    prometeus.nl
    а также
    prometheus.org.ua
    prometheus.io

    Вы в чью базу данных напрямую "r/w" хотите?
    Ответ написан
  • Есть ли более 1 кластера?

    @dmshar
    Вообще то есть такой раздел Data Mining, как кластерный анализ. И для решения задач типа вaшей разработано наверное десятков пять различных методов. В том числе - и "без ручного задания порога" (скажу по секрету - можно обойтись вообще без какого-бы то ни было задания порога).
    Ваш случай - простейший, одномерный. В жизни встречаются задачи намного сложнее. Но в любом случае, выбор подхода и конкретного метода кластеризации зависит от данных - и от того, в какой шкале они измерены, и сколько их, и известно-ли их распределения, и какие меры близости можно ввести в пространстве признаков. Там же рассматривается вопрос, а как ОБОСНОВАНО выбрать количество, на которых разбивается выборка и как выявить аномалии-выбросы. В довершении всего имеются методы сравнения методов между собой.
    Если говорить конкретно про Ваш пример, что данных настолько мало и кластеры настолько выражены, что тут сомнений нет. Но а если Вас проблема интересует более глубоко - то без изучения теории не обойтись. Часто кластеризацию изучают как одно из направлений в рамках машинного обучения и рассматривают в соответствующих книгах/курсах. Могу порекомендовать в качестве "затравки"-

    https://habrahabr.ru/post/101338/
    https://habrahabr.ru/company/ods/blog/325654/
    Флах _"Машинное обучение - наука и искусство построения алгоритмов",
    Барсегян "Анализ данных и процессов"
    и более серьезные источники:
    Мандель "Кластерный анализ"
    Ким "Факторный, дискриминантный и кластерный анализ"
    Миркин "Методы кластер-анализа"
    Aggarwal, Chandan K. "Reddy-Data Clustering_ Algorithms and Applications"

    и пр.пр.пр. Источников по теме -море.
    Удачи.
    Ответ написан
    7 комментариев
  • У кого какая доля рынка веб сайтов?

    @dmshar
    Да понятно, что Гуглу тяжело это понять.
    А попытайтесь-ка сами сформулировать строгие различия. Ну например, чем сайт типа "Business card website" отличается от сайта типа "Landing page". Только формально, т.е. так, что-бы какой-либо робот, зайдя нас сайт, мог определить отличия.
    То же самое с "Blog" и "News portal" - на некоторых блог-сайтах информации больше, и изменяется она чаще, чем на других новостных порталов. Да и авторский коллектив блога может быть больше всей редакции.
    В общем, не думаю, что такое разделение можно реально провести. Даже в ручную. Не говоря уже об автоматизации этого процесса.
    Ответ написан
    Комментировать
  • Необходимо ли знать прикладные инструменты для больших данных, анализа и машинного обучения?

    @dmshar
    Для работы с Big Data, Machine Learning и аналитики данных существует уйма различных инструментов - от Python до Watson, от RCPP до TensorFlow, от Tableau до SPSS, от RapidMiner до Hadoop.... Список можно продолжать и продолжать. Между прочим, даже тривиальный MS EXCEL имеет средства для большинства из указанных задач.
    В принципе все задачи можна решать хоть на С++, хоть на Java хоть на Ассемблере. Вот, даже на JavaScript уже пишут нейронные сети. Вопрос - что именно вы хотите в конечном счете сделать, как глубоко понимать что именно вы делаете, как быстро вам надо проходить путь от постановки задачи к готовому решению, какие деньги вы готовы потратить на получение этого решения и какими начальными знаниями в области технологий программирования вы или ваша команда владеете.
    Поэтому рекомендую обучение начать не с инструментов, а с идей, алгоритмов и методов, лежащих в основе задач Data Science. А по ходу - разберетесь, какой именно инструмент конкретно для вашего случая наиболее подходящий. И скорее всего, это будет не один какой-то инструмент, а несколько, которые в совокупности наиболее полно и эффективно покроют именно ваш круг потребностей.
    Ответ написан
    Комментировать
  • Что выбрать в качестве темы дипломной работы?

    @dmshar
    Нет, Тостер себя не изжил. Но какой ответ вы хотели получить даже не упомянув название своей специальности? А ведь дипломная работа делается не "по теме", а именно "по специальности". Что толку, если вам подскажут тему для Прикладной Математики, если ваша специальность Финансовая Аналитика?
    И какой вам толк, если вам назовут то, что "сейчас актуально", если у вас на это (вдруг) не хватит базовой подготовки?
    Ответ написан
    2 комментария
  • Могли бы объяснить что такое квартиль и медианна?

    @dmshar
    Если данные распределены не по нормальному закону распределению ( а они практически всегда так распределены, просто в одних случаях - близко к нормальному, а в других - нет), то как раз среднее арифметическое есть малоинформативная величина, в отличии от медианы.
    Наглядный пример:
    Заработная плата по предприятию
    -$100, $110,$120,$130,$140,$150,$160,$170,$200,$250,$900
    Среднее - 220,9. О чем она говорит? Ага средняя зарплата вполне достойная :-)
    Медина - 150. Вполне понятно - половина людей получает меньше, вторая половина больше.
    Квартили - это разбиение выборки на четыре равные по количеству элементов в них части.
    Из ваших данных, кстати, видно, что они не очень-то нормальные.
    Ответ написан
  • Мат. статистика: какой критерий достоверности выбрать для эксперимента с одним испытуемым?

    @dmshar
    По сути - это классическая задача, описываемая в любом учебнике по анализу гипотез.
    Для "работы" в этом случае стандарт - использование двухвыборочного критерия Вилкоксона-Манна-Уитни. (Только не спутайте его с одновыборочным критерием Вилкоксона - он предназначен для другого).
    Учтите, что совсем "классический" t-критерий Стьюдента (проверка на равенство матожиданий) тут не пройдет, т.к. что бы им пользоваться, надо доказать нормальность закона распределения, на что данных явно не хватит.
    Ответ написан
    Комментировать
  • Как по-простому определить наличие кластеров во временных данных?

    @dmshar
    Если делать все "как надо", то первым делом надо ответить на вопрос - распределение выборки отличается от равномерного или нет. Если отличается - то тогда можно идти дальше - искать кластеры, или выяснять, какое у выборки (а через нее - и у генеральной совокупности) распределение в действительности, и т.д. По большому счету, в дальнейшем даже выбор метода кластеризации, если его делать "правильно", должен зависеть и от результат этого этапа в том числе. Если-же не отличается - ну тогда и так все ясно, дальнейших исследований не требуется. Не забудьте после применения критерия проверить значимость полученных результатов, что-бы понимать, на сколько им можно доверять.

    Для определения "равномерности" выборки существуют ряд специальных критериев, наиболее распространенный из которых - т.н. критерий Шермана. Вычислительно простой и статистически мощный. (Существуют и другие критерии, но оптимальный выбор конкретного критерия - это уже тема более глубокого анализа).

    И еще хочу обратить ваше внимание, что кластеризация временнЫх рядов (именно рядов!) - это немного другое, чем просто кластеризация значений этих самых рядов (по сути, не отличающееся от кластеризации статических данных). Разные цели и разные методы.
    Ответ написан
    2 комментария