Ответы пользователя по тегу Аналитика
  • Анализ данных. Корреляционный анализ. Как правильно делать выводы?

    @dmshar
    Не понял, вы предлагаете за вас сделать домашнее задание? Или в вкратце тут изложить вам теорию непараметрических критериев различия? Или построить за вас коррелограмму (?) прованговав, каким языком программирования вы владеете? Может, вы хотите, что-бы мы вместо вас "разобрались в вашем предмете"? Какую именно помощь от нас вы желаете получить?
    P.S. На всякий случай напоминаю, тут НЕ сайт выполнения домашних заданий нерадивых студентов.
    Ответ написан
    Комментировать
  • Какой язык программирования подходит для сбора статистики?

    @dmshar
    А зачем для решения такой задачи ЯЗЫК программирования?? Достаточно API,.
    Ответ написан
  • Как посчитать прогноз на показатель SL?

    @dmshar
    Теория массового обслуживания рассматривает и такие задачи в частности. Посмотрите внимательно. Ответ на самом деле зависит от законов распределеня вашего входного потока и времени обслужвания - в вашем случае - операторов КЦ.
    Ссылок в интернете - и на довольно неплохие учебники по теме в том числе - полным полно.
    Ответ написан
  • Что нужно изучать для глубокого анализа данных?

    @dmshar
    Начните с Мат.Анализа, раз уже такое слово выучили. Не пропадать же "областям из наук". А "чтобы выявить большое количество инсайтов из данных" - так вам лучше сразу в разведку. Чего мелочиться. (Кстати, объясните нам, неучам, что такое "инсайты из данных", пожалуйста.)
    Ответ написан
    2 комментария
  • С чего начать изучение анализа данных python?

    @dmshar
    Давайте с конца в начало.
    "Если самостоятельно, то с чего начать изучение?" - тут все понятно и однозначно. Если хотите учиться самостоятельно, то начинать надо, естественно с обучения самостоятельному поиску нужной информации в сети. Хотя-бы с помощью Гуугла. А затем - самостоятельному принятию решений.

    "стоит ли тратить такие большие деньги, или же лучше начать изучение самостоятельно" - вообще-то что бы стать специалистом, надо потратить очень много времени. Правило 1000 часов никто не отменял. Особенно в таком "мозгоёмком" направлении как Data Science. Вон люди ведут дискуссии на тему - необходим-ли уровень phD, что-бы считать себя специалистом по анализу данных, или достаточно магистерского уровня по профильной специальности. Поэтому обязательно включите в список рассматриваемых альтернатив "получение высшего образования". И возможно это должен быть первым вариантом. А уж если по каким-то причинам не получиться - то переходить к следующим.

    "цены начинаются от 60 тысяч рублей." - вообще-то весьма гуманно. Вы же, когда станите специалистом, за бесплатно работать не захотите. Вот и люди тоже хотят. Тут надо смотреть не на ценник, а на то, кто и что вам будет рассказывать. Если вчерашний студент или человкек без опыта (кстати, как профессионального, так и методического) - то я бы не платил. А если это люди с известными именами, известные лекторы, известные разработчики (действительно известные и авторитетные, а не те, кто себя такими считает) - то цена за возможность лично задать вопрос, лично у него чему-нибудь научиться - весьма адекватна. Так что тут надо смотреть внимательно.

    Ну и еще одно - хотите специализироваться в Аналитике данных (и в программировании, кстати, тоже) - не забудьте об английском.
    Ответ написан
    Комментировать
  • Автоматизация подбора тегов к статье, как?

    @dmshar
    Существуют.
    Кажется первопроходцем был Reuters. Решение основано на использовании методов машинного обучения. Сначала на соответствующем наборе размеченных статей строиться некоторый классификатор. Затем он используется для отнесения новых статей к той или иной рубрике или рубрикам, что в точности соответствует задаче тегирования.
    Ну вот, на вскидку, просто как пример:
    https://towardsdatascience.com/applying-machine-le...
    Elaslic тут очень далеко - только как хранилище информации.
    Кстати, Reuters хвастался что он на внедрении этого метода экономит миллионы, в основном на зарплате разогнанного отдела почти на сотню сотрудников, которые ранее там тегировали новости вручную.
    Ответ написан
    Комментировать
  • Как подсчитать общий тренд?

    @dmshar
    Построить линию линейной регрессии. По знаку коэффициента a ( в некоторых книгах он называется коэффициентом b1, в общем - это коэффициент при Х ) определяется возрастающий или ниспадающий тренд у набора.
    В Python, в библиотеке sklearn для этих целей есть функция LinearRegression.
    На самом деле, самое трудное - определить то, что вы очевидно назвали "flat" - т.е. отсутствие тренда. Для этого мало определить сам указанный коэффициент, но надо посчитать его доверительный интервал и понять, захватывает-ли он 0.
    Ответ написан
    1 комментарий
  • Как вычислить изменчивость показателя прибора (индекс направленности)?

    @dmshar
    У вас данные измерены в шкале порядка, а значит, в лоб сравнивать среднее и пр. нельзя.
    Для таких данных используются свои способы оценки. Например, можно ваш ряд разбить на несколько последовательных окон ( предельный случай 45:45, т.е. два окна, но я бы начал с 4 или 5 окон), а затем сравнение проводить между каждыми двумя последовательными подвыборками используя любой непараметрический метод сравнения, например самый простой - Вилкоксона-Манна- Уитни. (https://ru.wikipedia.org/wiki/U-критерий_Манна_—_Уитни) Критерий покажет, есть ли статистически значимое "улучшение".
    Ответ написан
  • Анализ целочисленого массива данных?

    @dmshar
    Изобретать ничего не надо. Конкретно по вопросам:
    1. Строите разность (последующее число - предыдущее число). Затем строите гистограмму полученного ряда разностей.
    2. Строите гистограмму исходного ряда.
    3. Делите диапазон возможных значений на необходимые вам фрагменты. Строите двумерный массив, в котором каждый элемент представляет собой пару (номер фрагмента предыдущего числа, номер фрагмента следующего числа). Строите тепловую карту полученного массива.
    Итого - надо два сервиса.
    1. Построение гистограмм - присутствует в ЛЮБОМ инструменте - от EXCEL до SPSS, от MatLab до SAS, от R до Tableau.
    2. Построение тепловой карты (heatmap) - аналогично предыдущему. Сокращенный список возможного инструментария, например, вот здесь:
    https://ru.wikipedia.org/wiki/Тепловая_карта
    Ответ написан
    1 комментарий
  • Путь data science. Как будет правильнее?

    @dmshar
    1."опыт написания фронта, опыт it рекрутера." - накакого отношения в Data Science. От слова "совсем".
    2. "Учился в техническом вузе по инженерной специальности, но спустя год осознал, что сама эта специальность не для меня." - т.е. недоучился? Кстати, если нет склонности к инженерным специальностям, откуда уверенность, что есть склонность к "Data Science"? Замечу, "хотелось бы стать" и "имею склонность к" - это очень разные вещи.
    3. "Математику знаю и понимаю хорошо" - откуда эта уверенность? Из школы? Или из универа в котором недоучились? Какие курсы математики все-таки "дослушали", какие успехи?
    4. "невнимательность при вычислениях." - Вообще-то говоря, DS - это не вычисления. Вернее, вычисление сегодня выполняют хорошо известные реализации методов в разных пакетах. DS - это прежде всего умение разобраться в методах, понять их суть, ограничения, особенности и пр. , умение отобразить данные предметной области на абстрактные математические методы а потом проинтерпретировать полученные результаты в терминах предметной области.
    5. "Хочу попробовать развиваться в нем. " - хочется - развивайся. В чем проблема? Получить благословение сообщества? Зачем? Если человеку что-то действительно чего-то хочется, то он берет и делает это. Иначе это выглядит как поиск оправдания того, почему "мне хочется, но я этим заниматься не буду".
    6. "Не помешает ли отсутствие профильного образования?" - помешает. Ну и ? Если хочется развиваться в этом направлении, то "профильное образование" все равно придется получать. Любым способом - в универе, на курсах, самостоятельно. Но получать придется. А как без него? Не обижайтесь, но DS - это не рекрутинг. Это гораздо серьезнее.
    7. "Не помешает ли особенности моего импульсивного порой мышления?" - Знаю спецов в DS с очень разным типом мышления. Еще раз вынужден повторить - не ищите отмазки "почему не надо этого делать".
    8. "Английский на неплохом уровне, но тяжко будет воспринимать англо-техническую речь" - на первом - а возможно и на всех последующих - этапах говорить на английском вам не придется, это точно. Воспринимать - ну разве что решите заниматься через запись на англоязычные обучающие курсы. Тут уж как захотите - в инете полно материалов - курсов, книг, блогов, форумов - и на русском, а в университете вряд-ли придется учится на английском. А вот чтение и понимание написанного английского - это таки обязательное условия вхождения в эту специальность. Иначе перспективы ваши в ней будут не интересней перспектив в рекрутинге.
    9. "А с чего, собственно, начать? Есть ли какие-то рекомендации по книгам/курсам. " - вот этого - навалом, даже на этом форуме. Настолько навалом, что даже не хочется в 254 раз повторять одно и то-же. Так что ищите, найдете. Надеюсь, Гууглом пользоваться умеете. Или хотя-бы просто пройтись по "Похожим вопросам" внизу. Но вот пользуясь случаем хочу еще раз подчеркнуть - основное умение специалиста по Data Science - это умение и навыки самостоятельного поиска, анализа и инетрпретации информации. Благо источники ее сегодня доступны для любого, у кого есть доступ к интернет.
    Удачи.
    Ответ написан
    3 комментария
  • Статистика для data science. С чего начать?

    @dmshar
    Повторял и повторяю. Первое, чему должен научиться любой школьник, желающий стать специалистом по Data Seince - это умению САМОСТОЯТЕЛЬНО искать в сети хотя-бы элементарную, первичную информацию.
    Не понимаю, неужели проще писать вопрос на форуме, часами ждать ответов, потом разбираться в них, отсеивать ложные, препираться с ответившими и пр. и тратить на это несколько дней, чем за 20 секунд набрать в Гуугле "статистика и анализ данных", через пять секунд на первой-же странице получить исчерпывающий список и книг, и сайтов, и блогов, и видео по теме и ровно через минуту начать заниматься тем, что тебя интересует? А на форум идти тогда, когда что-тот конкретное станет непонятным?

    Подсказка - если Гуугл отключен, то на этом-же форуме туча аналогичных вопросов. Просто слово в слово. Вы их смотрели, анализировали? Они вам чем-то не подошли или вы засомневались в компетентности ответов?
    Ответ написан
  • Построить блок схему (логическую или алгоритмическую)? Или из текста - википедию?

    @dmshar
    а так загрузил текст книги и получил хоть аналог википедии и хоть какую-то блок схему..
    . - и желательно, конечно, на шару.
    А так, мечтать, конечно, не вредно. Но все-таки надо бы в начала освоить терминологию. Иначе даже читать смешно.
    "видел как в ворде рисуют блок схемы..." - никто в MS Word блок-схемы не рисует и никогда не рисовал. Для этого есть как минимум MS Visio.
    а лучше софт для анализа текста по указанным терминам - а можно для начала попросить описать, что вы понимаете под словосочетанием "анализ текста"? И в добавок - "анализ по указанным (кем) терминам"? Ну, пример хотя-бы привести.
    схема для автоматизации алгоритма - это вообще непереводимый набор слов.
    например есть книга с высказываниями .. - любую книгу можно представить как "книгу с высказываниями". Или вы определенную книгу/тип книги имеете ввиду. Переведите, пожалуйста эту вашу мысль в общедоступную форму.
    текст раскладывают на основные термины и потом выстраивают схему со стрелками например основного смысла книги.. - как стрелки между терминами могут представить основной смысл книги? Загадка. Опять хочется попросить пример. Начать можно не с "Война и мир", а с "Колобка" - итак: список терминов, "стрелки", "основной смысл" (в графическом представлении??). Ждем.
    Причем к этому всему БД - абсолютно не понятно (если термин БД трактовать как "база данных", конечно).
    "Софт для визуализации (а лучше формирования БД)" - это как бы вообще две совершенно разные задачи.
    и конечно бд... отдаленно как википедия.. - БД и Википедия, через запятую, ну-ну.
    алгоритма например выхода из критической ситуации - просто :-(
    блок схему (логическую или алгоритмическую) - а можно определить, что понимается под "логической блок-схемой", а что под "алгоритмической блок-схемой"?

    Еще раз прочитал вопрос - не могу понять, то-ли шестиклассник писал, то-ли на нас тестируют систему, составляющую предложения из заданного набора слов.
    Ответ написан
    Комментировать
  • Лучшие системы AutoML на основе табличных данных?

    @dmshar
    Как-то весьма сумбурно. И как мне кажется - заход не с той стороны.
    Поясню.
    1. ML - это не PHP, Python или С++. Это в первую очередь знание и опыт применения методов - как вы пишете - "предугадывания" (в том числе, конечно). Поэтому опыт ваших программистов - это последнее, о чем следует заботится, если вас интересует "Ещё раз подчеркну — исследование"
    2. Ну предположим, найдете вы что-то вроде self-hosted AutoML Tables. Теперь читаем "AutoML Tables enables your entire team of data scientists, analysts, and developers to automatically build and deploy state-of-the-art machine learning models on structured data at massively increased speed and scale." Т.е. в первую очередь - специалисты по DS и аналитики! Они у вас есть? Если есть - то спросите их, с какими инструментами они хотят работать. Если нет, то.... чудес не бывает.
    3. Вот когда вы подберете DS-специалистов, когда они продумают, каким образом надо анализировать ваши данные, выполнят Feature engineering, подберут (выберут) хотя-бы класс методов, которые имеет смысл применять, проведут пилотное исследование данных, приблизительно оценят их перспективность - и вполне может ( и скорее всего так оно и будет) оказаться, что именно для вашей задачи возможностей AutoML не хватает, - вот тогда и надо будет говорить и о фермах видеокарт и об опыте конкретных девелоперов.
    И рекомендую в самом начале пути осознать, что AutoML - это вовсе не мясорубка - на вход кусок мяса, на выходе - фарш.
    4. А так, AutoML систем на рынке достаточно. Ну, на вскидку - H2O AutoML,Auto-WEKA, TransmogrifAI, Firefly и т.д. Вот тут последний (по времени) обзор
    https://www.datasciencecentral.com/profiles/blogs/...
    и неплохие ссылки для дальнейшего чтения.

    P.S. И, кстати, 5 ГБ логов - это весьма скромный объем, тем более для всякого типа AutoML.
    Ответ написан
    Комментировать
  • Какие курсы выбрать для обучения на Data analyst/Data scientist с нуля?

    @dmshar
    Господи, слава Богу, что никому на ум не приходит написать "Попала вожжа под xвост. Xочу за год стать трушным хирургом/кардиологом (больше всего операции по пересадке сердца интересуют). С нуля, базового медицинского образования нет. "
    А че там мелочиться.
    А ниче, что для того что-бы стать специалистом в ЛЮБОЙ области надо потратить 10000 часов. Ладно, пусть вы суперталант и вам надо не 10К, пусть в два раз меньше - 5K. Из расчета 8 часов каждый день пять дней в неделю - это уже 120 недель, т.е. почти два с половиной года. Вы готовы столько тратить помимо "работы для оплаты курсов и пропитания"?
    Впрочем, конечно, сейчас вам тут насоветуют супер-пупер книжек, видеороликов и курсов. Ну, вперед, к мечте. Только когда поймете, что жизнь - это не рекламный ролик, а время и деньги - потрачены почти в холостую - не говорите, что вас не предупреждали.
    Ответ написан
    4 комментария
  • С помощью каких критериев проверяются статистические гипотезы относительно доли признака и относительно математического ожидания?

    @dmshar
    Не могу понять, это праздный вопрос - т.е. шли по улице, вдруг осенило - "а как это сделать"? Дай-ка спрошу у сообщества. Или этот вопрос - результат попыток глубоко изучения соответствующих книг и сайтов и непонимания каких-то вычитанных там сложнейших выкладок? Вот что заставляет задать вопрос даже не Гууглу, а на сайте? Вопрос, ответы на который есть на первых страницах ЛЮБОЙ книги для начинающих изучать статистику.
    Ну, если вдруг вас уже отключили от Гуугла и интернет у вас отказался работать подсказываю, что гипотезы относительно математического ожидания двух нормальнораспределенных выборок проверяются с помощью T-критерия Стьюдента.
    Проверка нулевой гипотезы о равенстве долей выполняется т.н. Z-критерием, являющимся модификацией предыдущего.
    Рекомендую вот такую книгу для начального ознакомления:
    С. Гланц Медико-Биологическая Статистика.
    Вообще-то она есть в свободном доступе в сети, но если у вас проблемы с интернет - тогда точно, в библиотеку.
    Ответ написан
    Комментировать
  • Как определить математическую функцию для графика?

    @dmshar
    Хочется разработать на Python такой алгоритм для применения в прогнозировании, сроки очень сжатые а у меня в этой области пока никакого опыта.
    Блин, люди с 20-ых годов XX столетия разрабатывали такие алгоритмы, за последние 20 лет напрограммировали горы программ и библиотек. Но нет, не то что учить - просто бегло ознакомиться влом. А зачем? Что-бы тут кто-то в одном сообщение пересказал всю теорию с практикой? Хочется "разработать алгоритм" - ну так разработай, в чем проблема. Сроки поджимают - ну, договаривайся с заказчиком. Или сообщение надо рассматривать как предложение работы - тогда в другой раздел.
    Ладно, если нужно только правильное направление мысли - копай в сторону "временнЫх рядов" (в первом слове ударение на последнем слоге). Там и раздел соответствующий есть - "прогнозирование на основе временных рядов" называется. Да хотя-бы введи в поиск Гуугла и пройди по первым-же ссылкам.
    Удачи.
    Ответ написан
    Комментировать
  • Что нужно знать, чтобы заниматься анализом данных?

    @dmshar
    Что-бы заниматься анализом данных надо, в первую очередь:
    1. Уметь САМОСТОЯТЕЛЬНО искать и находить информацию в интернете.
    2. Уметь САМОСТОЯТЕЛЬНО анализировать найденную информацию.
    3. Уметь САМОСТОЯТЕЛЬНО делать выводы из анализа.
    Пока у ТС с этим, очевидно, никак. Данный вопрос даже на Тостере задается по три раза в неделю, а в интернете - ежедневно куча статей на тему. Открывем теги "Машинное обучение", "Data science", "Data mining", да "IT-ОБРАЗОВАНИЕ" наконец. и вперед! "А вот нет, искать - не хочется, найти - не получается, пусть кто-то мне другой найдет и расскажет.

    И еще. Если даже "джун в программировании" вам не нравится, потому как "очень много учить надо", то хочу вас разочаровать, в анализе данных учить надо во много раз больше.
    Ответ написан
  • Как решаются подобные задачи и каким инструментом лучше?

    @dmshar
    Если вас интересует серьезное изучение темы, то даю наводку. Официально это называется "Теория многомерного шкалирования". Есть учебники (например - Толстова Ю.Н. Основы многомерного шкалирования - гууглится элементарно), предмет изучается в университете на соответствующих специальностях. Поскольку эта теория используется в основном гуманитариями (психологами, экономистами и пр), то изложение весьма простое.

    А вот если интересует подход на основе современной Data Science, то в принципе выше вам почти все правильно написали. Но я бы во-первых, попросил уточнить, вам действительно надо "процент соответствия лучшей" или все-таки задача стоит вновь поступающему описанию придать одну из пяти описанных ранговых(оценок)? Это несколько меняем алгоритм решения. Однако в любом случае, это точно "обучение с учителем. Почти классическая задача Классификации или Регрессии - зависимости от ответа на поставленный вопрос. В принципе - (почти) любой алгоритм подойдет. Если данных не очень много, и нет абсолютной уверенности в их непротиворечивости - то подход на основе деревьев. Тогда во-первых можно обойтись без нормализации (все равно количественных данных у вас аж одно), а во-вторых - использовать совершенно стандартные модули библиотеки scikit-learn.
    Но конечно, обучающих элементов чем больше - тем лучше.
    Ответ написан
    1 комментарий
  • Как классифицировать новость с помощью машинного обучения?

    @dmshar
    Меня всегда интересовало - люди начинают заниматься такими вопросами из соображений простого любопытства или им дают такое задание по работе? Если первое - то почему сразу за советами в форум, а не элементарный поиск в интернет или чтение учебника. Если второе - то почему не объяснить работодателю, что вы не специалист в теме?
    А информации не самом деле уйма - книги, веб ресурсы, курсов, любой учебник по машинному обучению содержит соответствующий раздел или как минимум пример.

    https://www.slideshare.net/compscicenter/-32801202
    https://www.youtube.com/watch?v=hULD4jS5DEc
    https://towardsdatascience.com/text-classification...
    xplordat.com/2018/12/14/want-to-cluster-text-try-c...
    https://www.analyticsvidhya.com/blog/2018/11/tutor...
    https://habr.com/post/346206/
    https://nlpub.ru/
    Ответ написан
    Комментировать