Ответы пользователя по тегу Аналитика
  • Что делать, если при учете константы в регрессионном анализе r-квадрат ужасен, но нет оснований не учитывать её?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Теоретически это возможно иметь такую разницу в r-squared. Но довольно редкий кейс, я бы перепроверил данные.

    2. Нужно/ Не нужно это вопрос моделирования. Как ты собираешься интерпретировать модель, если ты используешь линейную регрессию (модели с высокой степенью интерпретации), то ты всегда отталкиваешься от бизнес значений параметров и ошибок. Константу оставляют например когда при нулях (или значениях очень близких к нулю), модель не должна показывать ноль.

    3. Посмотри на другие метрики например среднюю абсолютную ошибку, медианную абсолютную ошибку. Все они имеют хорошую бизнес интерпретацию с которой легко работать. Сам по себе r_squared это количество вариативности (дисперсии) объяснено моделью. 0.19 (19 процентов) вариативности объяснено моделью. Что очень мало и я назвал бы такую модель негодной. В то время как 0.99 (99 Процентов) очень много это учебные показатели, но это еще не все это не означает все супер. Посмотри на вышеупомянутые метрики они измеряются в единицах твоего таргета. Как они себя ведут.

    4. RSS, ESS, TSS - далековато от бизнеса. Это значения которые нужны для F статистики. А она у тебя говорит сама за себя 4314 и 5. Первая модель (где 5) совершенно не пригодна. Вторую перепроверяй, и мысли категориями интерпретации. Это сама суть регрессивного анализа.
    Ответ написан
    2 комментария
  • Сквозная сортировка индексов DataFrame?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну с формулировкой вопроса ты подкачал, это переформатирование фрейма с элементами сортировки подсета данного фрейма. Вообще когда решаешь такую задачу, то индексы фрейма (колонки и индекс) будут тебе мешать, надо переводить подсет данных в numpy массив и там сортировать.

    Так или иначе, задачка простая, и решается в одну строчку кода, многими способами , например вот так
    df.loc[:,['A','B','C']] = np.sort(df[['A','B','C']].values,axis=1)

    Это изменит твой фрейм как ты хочешь, или определенными вариациями данного кода.
    Ответ написан
    Комментировать
  • Что можно написать в дипломной работе по теме восприятие пользователем результатов прогностических систем?

    Maksim_64
    @Maksim_64
    Data Analyst
    Восприятия пользователем результатов прогностических систем


    Вообще тема мертвая, она элементарно плохо сформулирована. Как мне видится, что бы со всем этим делом справится. Тебе подойдет дашборд, при чем в качестве web приложения. Если твой язык python то стек будет такой.
    python, pandas, plotly + dash + scikit-learn / statsmodels. Я бы рекомендовал statsmodels, раз уж речь о улучшении восприятия, то работай с интерпретируемыми моделями (statsmodels много инферентной статистики предоставит).

    1. Покажи на графиках, как изменение в одном из предикторов, влияют на твой таргет.
    2. Сделай анализ важности предикторов, это тоже улучшит понимание юзера.
    3. Покажи как удалил выбросы
    4. продемонстрируй что применяя стандартизацию данных (или другую трансфомацию), сама структура данных не меняется и т.д.
    5. Вообще рассмотри толковый EDA.
    Ответ написан
    5 комментариев
  • Насколько важно знать хорошо математику аналитикам?

    Maksim_64
    @Maksim_64
    Data Analyst
    Однозначно нужно знать продвинутую математику.
    Тебе требуется знать теорию вероятности и математическую статистику. Как ты их будешь изучать не умея интегрировать, дифференцировать и работать с матрицами.
    Теория Вероятности - Непрерывные случайные величины (continuous random variable) не умеешь интегрировать до свидания. Далее какие отношения между PDF (Probability Density Function) и CDF (Cumulative Density Function), PDF это производная CDF и т.д. Матрицы везде где у нас происходят операции в многомерном пространстве (более одной переменной на вход), вместо операций с числами происходят операции с матрицами.

    По этому Linear Algebra, Single Variable Calculus, Multivariable Calculus. Это те дисциплины без которых, ты не сможешь изучать теорию вероятности и математическую статистику на должном уровне.

    Аналитика, Data Science - подразумевает в себе моделирование, то есть сведение проблемы к математическому виду. Как сводить к математическому виду не понимая, что ты делаешь, не понимания какими математическими свойствами обладают те или иные объекты. Плюс все будет усложнятся тем, что этот математический вид будет, всегда иметь еще случайную ошибку (шум) в себе.

    Есть ли разница между аналитиками? В теории есть, если в двух словах, то Data Analyst его ответственность это будущее. Business Analyst его ответственность понимание прошлого. System Analyst - это вообще не много другое, его ответственность это анализ IT системы внутри компании. Конкретные требования написаны в вакансии и плюс конкретные требования будут разнится от проекта к к проекту.
    Ответ написан
    4 комментария
  • Какие требование к данным для t теста?

    Maksim_64
    @Maksim_64
    Data Analyst
    т.е я правильно понимаю, что распределение исходных данных может быть каким угодно, главное чтобы при бустрапировании выборки средние этого распределения имели нормальное распределение?
    Нет, ты в корне не правильно понимаешь. Если ты осуществляешь случайную выборку из ЛЮБОГО распределенния, берешь СРЕДНЕЕ значение по выборке, так распределение ТАКИХ СРЕДНИХ ЗНАЧЕНИЙ будет всегда нормально, независимо от распределения популяции, при достаточно большем размере выборки. Это CLT (central limit theorem).

    t-test сравнивает средние по группам. Так вот основные ДОПУЩЕНИЯ это.
    1. Независимость
    2. Отсутствие экстремальных величин.
    3. И НОРМАЛЬНОЕ распределение групп по которым считались средние для сравнения.
    Это основные подробнее гугли.
    Ответ написан
    3 комментария
  • Как правильно найти и описать аппроксимацию данных нормальным распределением со смещенным центром?

    Maksim_64
    @Maksim_64
    Data Analyst
    И так о сути вашей задачи. Перед вами "случайная выборка" sample distribution. Вы утверждаете что общее распределение (population distribution) нормально. Откуда вы это взяли я не знаю, но допустим может условие проблемы таково. Функция нормального распределения имеет два параметра среднее (mean) и стандартное отклонение (standard deviation). Общий вид N(mu, std). Ваша статистическая задача это осуществить аппроксимацию этих параметров на основе данных случайной выборки (sample).

    Нужно найти точку максимальной распространенности вида (т.е. на какой высоте его больше всего).
    У непрерывных распределений не бывает точек, бывает интервалы. Вероятность в любой точке равна нулю, это одно из главных различий дискретного pmf (probability mass function) от непрерывного pdf (probability density function).

    Стандартные функции определения нормального распределения по выборке, предполагают, что оно равно мат. ожиданию выборки.
    Что это вообще значит, математическое ожидание это параметр функции распределения, что значит равна вообще ничего не понял.

    Но это не учитывает, что центр может быть за пределами анализируемого диапазона

    Вообще ничего не понял, есть распределение что такое предел анализируемого диапазона где вы это нашли?

    Теперь к ответу на оба ваши вопроса:
    На ваших графиках попытка аппроксимировать pdf, для данных на основе наблюдений. В реальности это делается ну например методами MLE (Maximum Likelihood Estimation) Это числовой метод. В том числе полно примеров и на python. Так и гуглить python maximum likelihood estimation normal distribution. Аналитические методы тоже есть конечно. гуглить population mean from sample distribution. Ну и там в определенном интервале будет лежать mean. Но аналитические методы подразумевают слабовыполнимые допущения нужно знать стандартное отклонение популяции например, по этому на практике использует числовые то есть MLE. По терминалогии это классическая статистическая задача на основе выборки осуществить (statistical inference) то есть аппроксимировать параметры population distribution. Точную терминологию (на русском) смотри, в вики. Я привык все это дело на английском делать.
    Ответ написан
    7 комментариев
  • Почему много кликов по рекламе, но мало установок?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Надо посмотреть на распределение кликов по дням в теории просмотры, лайки, клики и тому подобное обычно следуют экспонентным распределениям (экспонентное понижение в данном случае). То есть каждый день (единицу времени , так точнее) вы получаете меньше (новых кликов, лайков и т.п ) чем в предыдущий. Нет ли аномалий в этом направлении.

    2. Надо глянуть корреляцию по дням между кликами и установками. То есть ли некая зависимость между количеством кликов в день и количеством установок.

    3. Нормальное ли это число, это бизнес вопрос смотря, какая монетизация, затраты и т.д. Вам виднее никто лучше вас вашего бизнеса не знает.

    4. Собирайте, как можно больше статистики и храните ее 14 дней и одна рекламная компания мобильного приложения совершенно не достаточно, для серьезных статистических выводов, и как следствие решений о том что мало и что много, что хорошо, а что нет, и как все это улучшить.
    Ответ написан
    Комментировать
  • Как интерпретировать результат теста Шапиро-Уилка и Колмагорова - Смирнова?

    Maksim_64
    @Maksim_64
    Data Analyst
    Ну все ли вы делаете правильно это совершенно неизвестно, (Это большой вопрос как сделана выборка, что за данные и т.д. вообщем соблюдены ли все условия) и так сходу не ответишь Это надо сидеть и разбираться (иметь ваши данные и время (сразу скажу делать я этого не буду)). А вот на остальное ответить вполне себе можно.

    1. График о чем говорит? Нормальное распределение подразумевает, крайне маленькие вероятности у "хвостов" распределения, то есть если вы отклонились более 2 стандартных отклонений то там 5 процентов всего по 2.5 с каждого края, на вашем же графике далекие от среднего значения НЕ являются маловероятными событиями. В статистике это называется fat tails. То есть это не НОРМАЛЬНОЕ распределение не будет такого что 95 процентов лежат в пределах двух стандартных отклонений, это значение будет меньше (Экстремальные величины не являются маловероятными).

    2. По поводу теста тут все просто. Что такое p-value? Это вероятность тестовой статистики при условии НУЛЕВАЯ Гипотеза ИСТИННА. Поговорим о логике эксперемента. Допустим мы говорим средний рост прохожего (мужского) пола 175см. Это ПАРАМЕТР популяции который мы хотим затестить посредством СЛУЧАЙНОЙ выборки. Мы выходим на улицу берем 500 (например дизайн эксперемента я опускаю) мужчин измеряем их рост и берем среднее значение это ТЕСТОВАЯ статистика, далее мы нормализуем (трансформируем наши ТЕСТОВУЮ статистику после чего она измерятся не в см а в стандартных отклонениях) ну и находим вероятность ТЕСТОВОЙ статистике из такого распределения где ПАРАМЕТР истинен. Если это вероятность ниже установленного заранее порога, мы отвергаем нулевую гипотезу. Потому что мы говорим это очень маловероятно видеть такую ТЕСТОВУЮ статистику при условии нулевой гипотезы истинной. Это общая направление ИДЕЯ. Частные имплементации могут отличаться в зависимости сколько данных у нас есть что мы знаем о распределении популяции и .т.д. Это была общая логика.

    У теста Колмагорова-Смирнова есть своя формула для ТЕСТОВОЙ Статистики которая показывает своего рода "дистанцию" между распределением выборки и в данном случае нормальным распределением (Упрощенно читайте подробнее) и вычисляет ее вероятность. В вашем случае он вам показал что вероятность равна нулю. (То есть уверенно отвергаем нулевую гипотезу).

    Это что можно понять из предоставленной вами информации, повторюсь ответить правильно ли вы все сделали возможности нет.
    Ответ написан
    Комментировать
  • Какой тут критерий подойдет для аб тестирования?

    Maksim_64
    @Maksim_64
    Data Analyst
    A_p - пропорция НЕ отмененных в контрольной 0%
    B_p - пропорция не отменных в тестовой группе
    Нулевой гипотезой будет A_p = B_p
    Альтернативной гипотезой A_p не равно B_p

    Находите p-value (вероятности увидеть B_p при условии A_p истина) если p-value меньше заранее установленного уровня например в 5% то отвергаете нулевую гипотезу и делаете вывод ЕСТЬ статистическая разница, если нет то мы не имеем достаточно доказательств для отвергания нулевой гипотезы.

    в итоге что тут может подойти ztest чтобы я узнал:

    ztest - тут не подойдет. Вам нужен тест Фишера на различие двух пропорций. Гуглите Fisher's exact test for two proportions. И там пошагово найдите p-values. И решите вашу задачу.
    Ответ написан
  • Какая модель машинного обучение тут подойдёт?

    Maksim_64
    @Maksim_64
    Data Analyst
    Идеи только следующие сделать, как положено в таких случаях (и в любых других) EDA (explanatory data analysis) для начала мы же аналитики а не гадалки. Посмотреть графики зависимой переменной от независимых индивидуально, если где то что линейное имеется посмотреть корреляции, и.т.д.

    Задать руководству вопрос (наверное главный) а имеет ли значение интерпретируемость модели или только ее предективная составляющая. Для бизнеса бывает важно интерпретируемость модели.

    Например если мы построим линейную регрессию у нее сильная интерпретируемая сторона. То есть параметры которые выучит модель имеют бизнес контекст (в рамках модели разумеется). Но точность будет например уступать Деревьям решений, но у деревьев нету интерпртируемости параметров она просто будет предсказывать и все.

    Машинное обучение начинается с компромисса между точностью и интерпретируемостью.

    А просто без визуализирования зависимой переменной c независимыми по отдельности, без понимания отношения между независимыми переменными между собой. Давать советы это гадать.
    Ответ написан
    Комментировать
  • Как обеспечить сопоставимость данных с разным объёмом выборки?

    Maksim_64
    @Maksim_64
    Data Analyst
    Очень обычная ситуация называется Sampling Distribution. По порядку. Есть Population параметр (истинный параметр) для нас он неизвестен, мы осуществляем его измерение посредством случайной выборки при этом размер самой выборки не постоянен что вполне нормально. В таких случаях используется Sampling Distribution. Все формулы mean, std, пропорции и.тд. они идут с учетом размера выборки.
    Пример например берем какой нибудь опрос Позитивно ли вы смотрите в будущее? например в один месяц опросили в одном городе 2000 респондентов и получили 30 процентов ответили позитивно. Через 3 месяца мы опросили 1300 респондентов в этом же городе и получили ответ например 50% ответили позитивно. Это абсолютно рабочая ситуация.

    Мы можем произвести гипотезные тесты например это настроение улучшилось, или это объяснимо просто делом случая. Посчитать p-value, интервалы ит.д все как обычно. Ну например в моем примере мы их будем сравнивать используя дистрибуцию разниц пропорций в Sampling Distribution. В общем гуглите Sampling Distribution изучайте там все формулы с учетом размера выборки и потом проводите гипотезные тесты относительно параметра который вы измеряете.
    Ответ написан
    Комментировать
  • Как правильно обработать статистику опроса о маршрутах транспорта?

    Maksim_64
    @Maksim_64
    Data Analyst
    Первое надо быть уверенными что дизайн опроса был составлен согласно математической статистике. Существует несколько направлений случайно выборки.
    Например:
    1. простая случайная выборка (каждый имеет равный шанс быть выбранным для участия в опросе)
    2. случайная выборка где предварительно участники опроса были разбиты на группы например по возрасту, полу, и.т.п и веса в выборке становятся процентами размера группы от общего количества.
    3. Кластерная например (это когда люди разбиты на группы и потом еще и группы выбираются случайно)
    и т.д.
    Если эксперимент не был организован как нужно то интерпретировать нечего.
    Если я вас правильно понял то выборка была произведена через сайт Госуслуги.
    Авторизация была через Госуслуги, поэтому исключаем вопрос накрутки и подтасовки для данной ситуации..

    Я не считаю данную выборку репрезентативной (она лишь может служить одной из групп). Задаете вопрос на улице (одна группа) на Госуслугах (другая) может опрос по телефону кого нет на Госуслугах (третья).
    Одна и целей статистики это делать выводы имея данные относительно малой группы участников эксперимента о большой. И что бы это осуществить выборка должна быть репрезентативной. В данном случае "большая" группа это люди зарегистрированные на Госуслугах жители Ставрополя а цель делать выводы о мнении Жителей города Ставрополя пользующихся общественным транспортом. То есть дизайн эксперимента построен не корректно и выводов делать нельзя.

    Если я вас не правильно понял и дизайн эксперимента составлен корректно. Какие возможны выводы.
    Самый очевидный 48 маршрут самый популярный (востребованный) 24% процента респондентов проголосовали за него (независимо от результата лучший или худший) то есть он самый востребованный это то место где должна быть проведена дополнительная работа.
    По поводу гипотез да можно у вас есть дистрибуция данных т.е. все необходимые статистики для соответствующих тестов легко находятся из этих данных.
    По поводу весов опять таки да при условии что респонденты были разбиты на группы.
    Но это все актуально если дизайн эксперимента сделан корректно. По этому поводу я высказался вначале.
    Ответ написан
    2 комментария
  • Какие метрики можно рассчитать для анализа данных авиаперевозок?

    Maksim_64
    @Maksim_64
    Data Analyst
    Это очень большой вопрос, который требует большего погружения в проблему. Метрикой в рамках data analyst, называется измерения которые имеют бизнес контекст. Нахождение метрик а в последствии и KPI (Key Performance Indicators), это одна из целей анализа. И просто посмотрев на базу данных не проводя даже EDA (Explanatory Data Analysis) невозможно даже начать отвечать на данный вопрос. Я бы начал c EDA. Затем попробовал бы почитать какие метрики используют в этой сфере.
    Ответ написан
    Комментировать