Ответы пользователя по тегу Аналитика
  • Где научиться профессионально искать и анализировать информацию?

    @dmshar
    Современное поколение почему-то твердо уверено, что любой ответ можно найти в интернет. В Гуугл или вот, последняя "панацея" - ChatGPT. Ну, на худой конец, вместо того, что-бы самому подумать, напрячься, поискать информацию, потом подумать, какая из них ложная или нет, потом опять подумать и обработать полученную информацию так, как нужно именно вам (а по дороге еще и хорошо потренировать свой мозг) - предпочитают пойти на форум, задать вопрос, лечь на диван посмотреть какой-нибудь фильмик (вариант - поиграть за компом в игруху) и дождаться, когда ответ преподнесут готовый, разжёванный, проверенный и подготовленный.
    Вот только в реальности все не так.
    1. Для того, что-бы задать вопрос - надо УЖЕ быть подготовленным, т.е. предварительно быть, что называется "в теме". Как минимум затем, что-бы правильные термины в запросе использовать, как максимум - задавать вопрос так, что бы он не был совсем дурацким.
    2. Для того, что-бы из полученной горы информационного шлака извлечь полезную информацию - надо УЖЕ быть подготовленным, т.е. предварительно иметь в теме достаточно знаний и опыта, что-бы понимать, где шлак а где золото.
    3. Для того, что-бы полученную информацию приспособить к своим конкретным потребностям - надо УЖЕ быть подготовленным, т.е. понимать свою тему настолько глубоко, что-бы можно было это препарирование сделать.
    Неучи подумали - появился ChatGPT - ура, сейчас на любой вопрос получим ответ и будет нам счастье, и учиться не надо! А вот фиг вам. На вопрос - "кто победил на прошлом чемпионате мира", или "как починить кран в умывальнике" - да ответ получите, и скорее всего правильный. А вот там, где надо думать, где вопросы не на фактаж, а на "подумать" - уже явно заметен парадокс: что-бы понять и извлечь пользу из диалога с ChatGPT надо быть умнее самого ChatGPT! Иначе будет не счастье, а горе. Т.е. надо сначала стать специалистом, а потом уже общаться с ИИ. Беда заключается еще и в том, что не понимая этого, надеясь на ИИ или даже на ЕИ (в виде коллективного разума на форуме) конкретный человек отучивается думать самостоятельно. Потому что жить на подсказках - это как жить на наркотиках. Мозг, привыкший к наркоте (подсказкам) перестает вообще развиваться и человек просто деградирует. И вот этом, а не в мифическом восстании ИИ против человечества - основная угроза, которую ИИ и несет человечеству.
    Так что ответ на ваши вопросы один - "учиться, учиться и еще раз учиться" - как говорил дедушка Ленин. Самостоятельно и серьезно. Т.е. сначала становимся специалистом хоть в чем-то, а потом думаем, как-же вооружиться инструментом УСИЛЕНИЯ наших знаний в виде Google, ChatGPT (или чего еще на тот момент придумают). А если нет базы - то усиляй не усиляй - все равно на выходе получишь пшик.
    Ответ написан
    Комментировать
  • Можно ли стать бизнес-аналитиком самостоятельно?

    @dmshar
    Вы же хотите бизнес-анализом заниматься? Т.е. анализировать бизнес процессы? Вот поставьте себя на место работодателя, который выполняет бизнес-кейс "прием новичка на работу". И попробуйте смоделировать его логику принятия решений, которая бы заставила его предпочесть человека без специального образования человеку, который такое образование получил и может свои знания подтвердить тем или иным способом. Сумеете?

    А вообще, в бизнес анализ приходят как правило одним из двух путей. Или от Data Science, постепенно отходя от теоретических моделей и все более погружаясь в те бизнес-модели и и бизнес-задачи, которые характерны для выбранной прикладной области. Или уже будучи специалистом в прикладной области, все более углубляясь в анализ данных. Но вот что-бы вообще без образования, т.е. без глубокого понимания ни методов анализа как такового, ни особенностей предметной области? Похоже - это чистая фантастика.
    Ответ написан
    2 комментария
  • Есть ли в мире программистов спрос на аналитику поведения не-людей?

    @dmshar
    Какая-то каша в вопросе.
    Во-первых, "аналитика данных" или точнее "Data Sience", "Data Analytics" etc. это наука, занимающаяся хоть изменением климата, хоть финансами, хоть технической диагностикой, хоть эпидемиологией и медициной, хоть информационной безопасностью, хоть психологией и маркетингом, и характеризующаяся в первую очередь набором своих методов и алгоритмов решения задач. Методы практически везде (почти) одинаковы, а вот интерпретация результатов делается на языке той предметной области, из которой к специалисту по данным пришел заказчик со своей задачей.
    Во-вторых, паттерны поведения - это что? (Кроме иностранного слова, вносящего ореол таинственности и значительности говорящего). Ну вот "пользователи заходят на сайт в основном с 18 до 24 вечером по будням, и с 9 до 18 по субботам и воскресеньям и праздничным дням. Летом заходят чаще чем зимой - это "паттерн поведения"? Или "люди покупают чаше пиво с воблой, чем пиво с конфетами" - это паттерн поведения? Или - при повышении температуры на 5 градусов продажи бензина повышаются на 3%, а при снижении температуры до -3градусов количество пациентов с переломами конечностей в пунктах скорой помощи возрастает на 20% от среднегодового количества. " Или "уровень преступности положительно коррелирован с коэффициентом 0.73 с уровнем безработицы и отрицательно коррелирован с коэффициентом -0.62 с уровнем образования" - Вот это все - паттерны? Они связаны с "поведением"? Они о паттернах поведения людей?

    Поэтому - на вопрос "Существуют ли вообще компании, не имеющие цели подстроить сервис под клиента, а работающие с базами данных ради исследования и выведения новых паттернов поведения?" надо прямо сказать "подстраивание поведение компании под клиента" - это только одна и не самая большая, и точно - не самая полезная ни для общества ни для экономики ниша использования аналитики данных.
    Ответ написан
    Комментировать
  • Где брать данные о появление новых AI инструментов?

    @dmshar
    godsplane, Если такой сайт уже есть, то зачем будет нужен ваш сайт? Но идея хорошая, попробуйте сами собирать такую информацию и выдавать ее в агрегированном виде. Вот это буде уже интересно.
    Впрочем, вспомнил:
    ai-news.ru
    Конкурируйте!
    Ответ написан
    Комментировать
  • Как рассчитать mde и sample size?

    @dmshar
    " как называют то, что работает на основе мат закона для определенного распределения (не важно какого) и благодаря этому правилу оно может оценить различие двух распределений" - само это действие называется проверкой гипотезы об однородности. Критерием называют правило, на основании которого при этой проверке принимают решение. Критериев бывает много и всяких. Если данные подчиняются нормальному закону распределения - проверяют матожидание, средние, моменты более высоких порядков. Аналогичные критерии - есть и для других распределений (равномерного, экспоненциального). Если данные не подчиняются этим законом, или если есть подозрения что могут измениться не только параметры распределения, но и сам закон - применяют непараметрические критерии принятия решения (т.е. критерии свободные от распределений). Например - критерии Вилкоксона-Манна-Уитни, Ван-дер-Вардена, Медианный критерий, Фишера-Йэйтса, Ансари—Бредли, Клотца, и множество других). Могут еще сравниваться не указанные величины, а сами эмпирические функции распределения (Колмогорова-Смирнова, Крамера-фон Мизеса и др). А есть еще совершенно другой (информационно-энтропийный) подход на основании меры Кульбака — Лейблера. Есть методы основанные на метрическом подходе - от метрики Эвклида до метрики Васерштейна. Много чего есть еще.

    Для каждого из критериев существуют свои правила построения доверительных интервалов.
    sample size всегда, для любого критерия ищется как обратная задача - при выбранном критерии, выбранном уровне значимости находят такое значение n, которое обеспечит нужную ширину доверительного интервала. И да, от закона распределения эта величина зависит ровно настолько, насколько вы поверили, что правильно угадали этот самый закон распределения или отказались делать такое предположение вообще.
    Ответ написан
    Комментировать
  • Какая модель машинного обучение тут подойдёт?

    @dmshar
    Вопрос - а причем тут машинное обучение? Типичная задача оптимизации. Кстати, вы даже не определили, что такое "оптимальный остаток". Да, надо подумать и составить модель - опять же типичная задача эконометрики. Загляните к ним на форум, может помогут. Но к ML это отношения не имеет от слова совсем.
    Ответ написан
    2 комментария
  • Как оценить эффективность функции потерь для практических задач?

    @dmshar
    Вопрос некорректно сформулирован. Вернее - он сформулирован так, что ответить на него однозначно нельзя.
    Потому-что на вопрос "Посоветуйте пожалуйста источники или литературу, что можно посмотреть по этой теме." - любой учебник по Machine Learning обязательно содержит хотя бы одну главу на эту тему.
    А вот далее все зависит от ваших целей и задачи - а про этого мы без вас узнать ничего не можем
    Если вы "Пробовала разные метрики" - это уже хорошо. Но вот непонятно, что вас смутило при этом. Почему возник вопрос? Что осталось непонятным?
    Потому как в разных задачах помимо указанных вами (и еще ряда аналогичных) метрик используются и другие подходы, начиная от тривиальных ошибок I/II рода до AUC и ROC-кривых. А есть еще всякие информационное критерии Акаике, Байеса, Шварца и пр. И у каждого своя сфера применения и использования.
    Главная проблема исследователя в области Data Sсience и Machine Learning лежит не в знании всяких методов - в данном случае метрик. Хотя и это немаловажно. А именно в умении "перевести" проблемы с языка прикладной области на язык математики перед применением инструментов, и в умении интерпретировать полученные результаты после их применения.
    Поэтому для того, что-бы вам что-то конкретное советовать - надо понимать вашу конкретную задачу. "Предсказать количество пользователей" - это не цель, это просто некоторая учебная задача. Если это так, то и метод оценки вам должен быть задан. А вот если это реальная аналитическая проблема - тогда уже надо углубляться в проблему: зачем вы эти данные собираетесь предсказывать, что дальше делать с этими предсказаниями, как важны для вас ошибки и какие ошибки и т.д.
    Так что увы, или уточняйте проблему, или самостоятельно копайте информацию по любым источникам, а лучше - книгам.
    Ответ написан
    2 комментария
  • Где найти бесплатные курсы по data analytics?

    @dmshar
    Я не понимаю. Вводный курс - прошли. Что такое Аналитика - как бы должны знать. А за одно уметь искать в интернет, самостоятельно.
    Почему не взять то, что вам уже рассказали и не углубить каждую из пройденных тем??
    Ну ладно, на курсах вам не объяснили, что для аналитика главное - уметь анализировать полученную информацию И вы хотите готовых программ обучения (ну, т.е. что-бы кто-то аз вас выполнил соответствующую аналитику открытой информации). ОК, так и их (программ этих) куча в интернет. Они вам чем-то не подходит? Чем именно?

    Какие 3 безответные СТРАНИЦЫ Гуугла? Вы о чем? Ну вот просто набрал строку в Гуугл. Ответы из первой десятки:
    https://openedu.ru/program/ITMOUniversity/DATAN/?s...
    https://www.coursera.org/professional-certificates...
    https://careerfoundry.com/en/blog/data-analytics/f...
    https://sky.pro/courses/analytics/data_analytics/
    https://www.udemy.com/course/data-analysis-with-ex...
    https://karpov.courses/analytics
    https://skillfactory.ru/data-analyst-pro#syllabus

    Любой открываете, берете описание программы и самостоятельно идете по темам, изучаете. А если даже вдруг что-то не совсем то, что вы ожидаете - ну так проанализируйте, скомпонуйте то, что именно вам надо.
    Ответ написан
  • Как определить ключевые предикторы, если нет корреляции?

    @dmshar
    Давайте немного разберёмся.
    Ваше первое утверждение:
    осложнения (как зависимые параметры) зависят от предикторов, коими являются некие "вмешательства"
    Ваше второе утверждение:
    осложнения никак не коррелированы (т.е. нет связи а тем более нет зависимости ) с вмешательствами.
    Вам не кажется, что тут явное противоречия? Именно в ваших утверждениях. Потому как я понимаю, зависимость между осложнениями и вмешательствами в каком-то виде должны присутствовать. Иначе, что же мы хотим изучать?
    Смею предположить, что корреляция все-таки имеется, но вы ее не умеете фиксировать. Либо она слабо проявляется на отдельных предикторах, но имеется между некоторым набором предикторов и конкретным видом осложнений. И этого вы тоже скорее всего не проверяли. Не говоря уже о том, что эти самые предикторы (т.е. вмешательства) могут быть представлены либо в номинальной, либо в ранговой, либо даже в числовой шкале. И в зависимости от вариантов применяются различные методы выявления корреляции.
    В любом случае, при решении подобных проблем без углубления в семантику как правило получить вразумительного решения не удается. Не уверен, что форум - это то место, где такую дискуссию стоит затевать. Хотя некоторые базовые вопросы, если они у вас есть, мы можем попробовать обговорить и тут. Но начинать точно надо не со столь глобального и не имеющего общего ответа вопроса, как "Как определить ключевые предикторы".
    Ответ написан
    Комментировать
  • Откуда брать данные для анализа отрасли и рынка?

    @dmshar
    Обратится в соответствующие аналитические агентства. За денежку - и не малую - они вам выдадут такую аналитику. Ну можно еще в Госстат обратиться, примерно на такой-же основе.
    Ответ написан
  • Как определить, сколько бизнес-аналитиков нужно на проект?

    @dmshar
    Просто вопрос. 10 офисов. По 3 системы в каждой. Как вы определили, что всего систем 30 "разных совершенно систем" ? Подчеркну - офисы ОДНОЙ и той-же компании.
    И еще, вы можете привести наименования - я уже не говорю про 30 разных систем, но несколько систем типа 1С, которые могут использоваться в офисах одной и той-же компании? Или 10 совершенно разных "логистических систем" при том же условии? Ну хотя-бы 5. И просто представить, как компания должна была постараться, что-бы во всех офисах, занимающихся логистикой (бухгалтерией, кадрами... неважно чем) понатыкать РАЗНЫХ систем?

    Пока из вашего вопроса понятно одно. Вам бы для начала хотя-бы одного бизнес-аналитика нанять, который поможет вам с вашей задачей разобраться.
    Ответ написан
    2 комментария
  • Как привести выборку в нормальное распределение?

    @dmshar
    "Я вот хочу проверить две группы Т-Тестом" - хотеть можно что угодно. Но вот к исследованию данных это не имеет никакого отношения. Если у вас данные не подчиняются нормальному закону распределения, то использовать t-критерий Стьюдента крайне нерационально. Для таких случаев есть другие тесты, из группы непараметрических. Их много. Можно начать с теста Вилкоксона-Манна-Уитни, и/или критерия Колмогорова-Смирнова. Их стандартные реализации есть в scipy.stats. Впрочем, как и кучи других методов, которые могут применятся в таких случаях.
    Ответ написан
    Комментировать
  • Нужна программа для сбора и визуализаци статистики. Есть у кого на примете такая?

    @dmshar
    Чем MS Excel не угодил? Простая, дает возможности, которые вы просили, отлично строит картинки и графики. Что значит "удобно" просматривать графики я правда не понял, но мои графики и картинки и рисовались и просматривались всегда отлично. Если скажете что не так - будем думать дальше.
    Ответ написан
    6 комментариев
  • Как провести анализ характера и частоты транзакций клиентов, основываясь на их возрасте?

    @dmshar
    Любой анализ надо начинать не с "я думаю" а с четкой постановки его (анализа) цели. Что вы хотите в его результате выявить? Или вы просто хотите "сбить" некоторую статистику, которую имеете по факту? Ну например, выявить, зависит-ли интересы клиента от его возраста. Даже для такого простейшего вопроса понятно, что данных у вас мало, и для получения более менее полезного ответа на вопрос надо вводить еще и признак пола клиента.
    А так как вы написали - ну это не анализ, это просто структура реляционной базы для выполнения одной транзакции. Да для вашего запроса достаточно, но тогда непонятно, а вопрос-то в чем заключается?
    Ответ написан
    6 комментариев
  • Нулевая гипотеза. Как исправить формулировку?

    @dmshar
    А что собственно, неясно? Нулевая гипотеза для средних всегда принимается как гипотеза РАВЕНСТВА средних, которую надо опровергнуть (отклонить). Или "не отклонить". Альтернативная гипотеза действительно, как правило относится к той теории, которую собираются исследовать - в вашем случае, что тарифы влияют на выручку. Именно так работают все критерии и именно это (вероятность того, что мы ошибемся, приняв альтернативную гипотезу - в вашем случае, мы скажем что тариф влияет на выручку, хотя на самом деле это не так) и показывает значение p-value. Простым языком, "большое" его значение, говорит, что при отклонении нулевой гипотезы мы скорее всего ошибемся, а малое - что мы может быть и ошибемся, но вероятность такой ошибки крайне мала.
    У вас же все наоборот. Вот и результат получаете такой, который невозможно нормально проинтерпретировать.
    P.S. И да, увеличьте точность представления десятичных чисел, иначе вы вообще ничего никогда не увидите.
    Ответ написан
    Комментировать
  • Какой Roadmap для бизнес-аналитика?

    @dmshar
    А вы хоть на"текущем месте работы" когда вам предложили - поинтересовались, в чем конкретно будут состоять ваши функции. (Странно, что PМ этого не знает, ну да ладно). А то часто оказываются, что разные люди понимают одни и те-же термины (в данном случае -"бизнес анализ") совершенно по разному. Поэтому вам не с Roadmap начинать надо, а с выяснения того, что от вас требоваться будет. Конкретно, на вашем рабочем месте. А уж ознакомившись и поняв это - думать о построении всяких путей и дорожек достижения обозначенных (недостающих!!) знаний.
    Ответ написан
    Комментировать
  • Какой язык легче изучить для анализа данных?

    @dmshar
    Для человека незнакомого с программированием (и не горящим желанием его изучать) надо использовать не R или Python, а инструменты, где такого программирования практически нет, а основные - и довольно сложные - действия по анализу данных выполнить можно. Таких инструментов море - от банального EXCEL, который покроет процентов 80 всех ваших потребностей, до SPSS, от Rapid Miner до Н2О. Есть еще куча специализированных он-лайн сервисов - но там уже надо смотреть по вашей специализации - понятие "анализ финансовых данных" весьма широкое и включает множество субдоменов, для каждого их которых эти сервисы свои.
    Ответ написан
    Комментировать
  • Доверительный интервал и генеральная совокупность.Какая связь?

    @dmshar
    1. Вопрос: будут ли эти выборочные средние распределены нормально относительно величины приблизительно равной среднему росту в ген.совокупности?
    Ответ: Да
    2.Вопрос:Работает ли центральная предельная теорема?
    Ответ: А кто и когда ее отменил?
    3. Вопрос: Поэтому мы смотрим диапазон куда входят 95% всех значений и берем его как исчерпывающий результат?
    Ответ: Мы сначала из внестатистических соображений выбираем уровень значимости. Он может быть и 0.95, и 0.9 и 0.0000001 - любой. А потом уж строим доверительный интервал, используя выбранный уровень значимости.
    Что такое "исчерпывающий результат" - я такого термина в статистике не встречал. Поясните.
    Ответ написан
    Комментировать
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Господи, опять дисперсия, опять размах. Вы после этой темы
    Как соотносится дисперсия с sd?
    хоть один учебник открыли?
    Кто, где, когда вам сказал, что "дисперсия приближается к размаху"???? А тем более, что "дисперсия должна быть близка к размеру выборки"???? Если у вас будет набор на 10000000 элементов, то дисперсия тоже будет "приближаться"???? Да хоть формулу дисперсии посмотрите для интереса. Там размер выборки в ЗНАМИНАТЕЛЕ!!! Подумайте, что это означает в конце концов.
    P.S. Впрочем, подумал- надо бы узнать, в каком классе вы учитесь. Может я слишком многого от вас хочу?
    Ответ написан
  • Как соотносится дисперсия с sd?

    @dmshar
    Специально для вас сгенерировал нормальнораспределенные данные с вашими параметрами - М = 50, sd=10.
    и построил их гистограмму. 5f31c326b1974045390049.png
    Как легко видеть, в диапазоне от 20 до 80 лежат именно эти самые 99.7% данных. А что вы имели ввиду, когда писали "не сходится то что 60 это 99,73%" и "т.е 60 наблюдей в этом диапазоне [20;80] это 99,73% ?"- то непонятно, ни что вы в виду имели, ни что с чем не сходится. ни причем тут диапазон (60) а к проценту количества наблюдений (99,73%).
    Ответ написан