Ответы пользователя по тегу Data science
  • Можете порекомендовать книги для практических заданий Python Data Science?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. От создателя pandas 3-е издание его легендарной книги Python for Data Analysis, 3E Веб версию, книги он сделал бесплатной. Для новичков шикарно, основные библиотеки плюс jupyter.

    2. От профессоров стенфорда, класика по DS с 2023 python edition (с лабараториями и сложными упражнениями). Так же доступна бесплатно. An Introduction to Statistical Learning
    Ответ написан
    3 комментария
  • Какая есть литература полезная и понятная по Data Science на русском?

    Maksim_64
    @Maksim_64
    Data Analyst
    Data Science довольно широкий термин. Насчет Deep Learning посмотри недавно советовал хорошую книгу Ну а насчет Data Science слишком широко берешь, вышеупомянутый Deep Learning относится к DS, статистические тесты, вероятностное моделирование и т.д. также относится к DS, при этом они требуют углубления в совершенно разные разделы математики.
    Ответ написан
    1 комментарий
  • Стоит ли уходить в Data Science?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Без сильного программирования делать будет нечего. Есть вакансии математиков там (иногда) программирование требуется но постольку поскольку. Именно в DS требования к программированию большие. Более того в последние годы наметилась тенденция под многими DS вакансиями, бизнес ожидает разработчика в области DS. No Code практики существуют (слабо распространены в России) упомянутый (Jupyter) не имеет к этому никакого отношения в нем надо точно также уметь кодить. Да и в целом No Code довольно редко встречается.

    2.
    Готов потратить год на изучение DS,
    Не реально. Я бы не советовал менять тебе профессию, а если хочешь в DS начни учится, и не на курсах а самостоятельно и начинать надо с программирования.

    3. По зарплатам расти можно довольно быстро да и на первой работе могут платить далеко не 60. Вопрос не в этом, до того как ты сможешь претендовать у тебя путь в несколько лет.
    Ответ написан
    3 комментария
  • Как оценить вероятность того, что среднее выборочное одного бета распределения больше среднего выборочного другого бета распределения?

    Maksim_64
    @Maksim_64
    Data Analyst
    Стандартная стратегия это получить распределение разностей, затем получить pdf этого распределения ну и подставлять интересующую разницу.

    https://stats.stackexchange.com/questions/436039/h...

    Здесь в первом ответе выведена точная формула pdf разностей бета распределений.
    Ответ написан
    Комментировать
  • Как правильно трансформировать данные к нормальному распределению?

    Maksim_64
    @Maksim_64
    Data Analyst
    Правильного способа не существует в природе. Надо пробовать все трансформеры.

    Пробуй Power Transformer (Он все таки самый универсальный) с обоими методами Box-Cox и Yeo-Johnwon . И делай тоже самое визуализацию распределение до и после. На всякий случай перепроверь свой код визуализации.

    Держи kaggle notebook из коллекции на эту тему. Где детально разобраны все трансформеры и визуализация хорошо выполнена, QQ график из statsmodels используется, плюс KDE в общем очень советую читать notebook и пробовать на своих данных.
    Ответ написан
    Комментировать
  • Насколько важно знать хорошо математику аналитикам?

    Maksim_64
    @Maksim_64
    Data Analyst
    Однозначно нужно знать продвинутую математику.
    Тебе требуется знать теорию вероятности и математическую статистику. Как ты их будешь изучать не умея интегрировать, дифференцировать и работать с матрицами.
    Теория Вероятности - Непрерывные случайные величины (continuous random variable) не умеешь интегрировать до свидания. Далее какие отношения между PDF (Probability Density Function) и CDF (Cumulative Density Function), PDF это производная CDF и т.д. Матрицы везде где у нас происходят операции в многомерном пространстве (более одной переменной на вход), вместо операций с числами происходят операции с матрицами.

    По этому Linear Algebra, Single Variable Calculus, Multivariable Calculus. Это те дисциплины без которых, ты не сможешь изучать теорию вероятности и математическую статистику на должном уровне.

    Аналитика, Data Science - подразумевает в себе моделирование, то есть сведение проблемы к математическому виду. Как сводить к математическому виду не понимая, что ты делаешь, не понимания какими математическими свойствами обладают те или иные объекты. Плюс все будет усложнятся тем, что этот математический вид будет, всегда иметь еще случайную ошибку (шум) в себе.

    Есть ли разница между аналитиками? В теории есть, если в двух словах, то Data Analyst его ответственность это будущее. Business Analyst его ответственность понимание прошлого. System Analyst - это вообще не много другое, его ответственность это анализ IT системы внутри компании. Конкретные требования написаны в вакансии и плюс конкретные требования будут разнится от проекта к к проекту.
    Ответ написан
    4 комментария
  • Что делать с экстремально дисбалансным датасетом?

    Maksim_64
    @Maksim_64
    Data Analyst
    1. Метрики используй либо ROC, а лучше матрицу ошибок классификации (confusion matrix). Тебе здесь необходимо смотреть в сторону байесовых интерпретации теории вероятности.

    2. Не один из методов работы с выборками не гарантирует решения проблемы. (Что не означает что от них надо отказаться, я бы попробовал сгенерировать дополнительные данные)

    3. Посмотри в сторону алгоритмов "детекции аномалий". Из известных алгоритмов SVM может быть использован ну у них есть и свои более специализированные (даже для медицины свои бывают). гугли anomaly detection classification python или на чем ты там реализуешь и изучай. Это большая тема в машинном обучении и вообще отдельный навык и например какой то датасаентист может фокусироваться только на детекции аномалий.

    Ты наверное знаешь в теории вероятностей есть Bayes байесова интерпретация (мы смотрим на вероятность как степень уверенности) и что называется Frequentism мы смотрим на вероятность как частоту на длинной дистанции. Так вот тебе нужно смотреть в сторону байесовой здесь, как по метрикам так и по алгоритмам. Алгоритмы детекции аномалий я в контексте данного вопроса так же отношу к ним.

    Что касается твоих замечаний, то ты прав. Модель имеет сильную предрасположенность, что мешает обучению. Собственно я по этому и дал советы выше.
    Ответ написан
  • Пожалуйста порекомендуйте с выбором проекта Data science?

    Maksim_64
    @Maksim_64
    Data Analyst
    Почитав, ваш ответ на мой комментарий, вот какие советы вам дать. То что вы ищете по уровню называется EDA (Explanatory Data Analysis). Это начальный поверхностный анализ, так сказать, глянуть что из себя представляет датасет, и в какую сторону двигаться дальше. Вы используете в нем pandas и matplotlib/seaborn. Если вы не проходили seaborn то ничего страшного, он сделан на matplolib и в целом используется совместно (упрощено говоря matplotlib c улучшенными графиками)

    Kaggle это хорошо, там все и возьмете. Например вот https://www.kaggle.com/code/imoore/intro-to-explor... на kaggle то не только датасеты есть но и notebook'и c кодом, что сообственно я и привел вам ссылке.

    Как искать на главной странице сайта есть поиск пишете в нем EDA затем в окошке слева отмечаете галачкой ipynb. И получаете список нотебуков, которые содержат EDA. Большинство нотебуков будут содержать манипуляции с pandas и визуализации matplolib/seaborn и объяснения что все значит. Читайте разбирайтесь, что не понятно и совсем не можете справится спрашивайте.

    Это так сказать гайд для вашего случая (когда плохо понимаете с чего вообще начать). Приготовьтесь серьезно потрудится, просто если на курсах не поняли толком ничего не будет.
    Ответ написан
    2 комментария
  • Как узнать планируемый график запуска соревнований на kaggle.com?

    Maksim_64
    @Maksim_64
    Data Analyst
    Такого графика нет. Были дискуссии на эту тему, администрация опасается, отмены соревнования, с их слов бывает что у них все готово к старту и что то срывается, ну и соответственно они опасаются за свою репутацию.

    На практике большинство участников используют kaggle на ежедневной основе и ничего не пропускают, да многие не заходят в первый день, почитают дискуссии, посмотрят работы других участников EDA анализ например, посмотреть нотебук, который сабмитит результаты, что бы не заморачиваться с кагловским апи и.т.д

    А так ты можешь себе уведомление поставить о новом соревновании. Но графика планируемых соревнований нет.
    Ответ написан
    Комментировать
  • Как правильно обработать статистику опроса о маршрутах транспорта?

    Maksim_64
    @Maksim_64
    Data Analyst
    Первое надо быть уверенными что дизайн опроса был составлен согласно математической статистике. Существует несколько направлений случайно выборки.
    Например:
    1. простая случайная выборка (каждый имеет равный шанс быть выбранным для участия в опросе)
    2. случайная выборка где предварительно участники опроса были разбиты на группы например по возрасту, полу, и.т.п и веса в выборке становятся процентами размера группы от общего количества.
    3. Кластерная например (это когда люди разбиты на группы и потом еще и группы выбираются случайно)
    и т.д.
    Если эксперимент не был организован как нужно то интерпретировать нечего.
    Если я вас правильно понял то выборка была произведена через сайт Госуслуги.
    Авторизация была через Госуслуги, поэтому исключаем вопрос накрутки и подтасовки для данной ситуации..

    Я не считаю данную выборку репрезентативной (она лишь может служить одной из групп). Задаете вопрос на улице (одна группа) на Госуслугах (другая) может опрос по телефону кого нет на Госуслугах (третья).
    Одна и целей статистики это делать выводы имея данные относительно малой группы участников эксперимента о большой. И что бы это осуществить выборка должна быть репрезентативной. В данном случае "большая" группа это люди зарегистрированные на Госуслугах жители Ставрополя а цель делать выводы о мнении Жителей города Ставрополя пользующихся общественным транспортом. То есть дизайн эксперимента построен не корректно и выводов делать нельзя.

    Если я вас не правильно понял и дизайн эксперимента составлен корректно. Какие возможны выводы.
    Самый очевидный 48 маршрут самый популярный (востребованный) 24% процента респондентов проголосовали за него (независимо от результата лучший или худший) то есть он самый востребованный это то место где должна быть проведена дополнительная работа.
    По поводу гипотез да можно у вас есть дистрибуция данных т.е. все необходимые статистики для соответствующих тестов легко находятся из этих данных.
    По поводу весов опять таки да при условии что респонденты были разбиты на группы.
    Но это все актуально если дизайн эксперимента сделан корректно. По этому поводу я высказался вначале.
    Ответ написан
    2 комментария
  • Какие метрики можно рассчитать для анализа данных авиаперевозок?

    Maksim_64
    @Maksim_64
    Data Analyst
    Это очень большой вопрос, который требует большего погружения в проблему. Метрикой в рамках data analyst, называется измерения которые имеют бизнес контекст. Нахождение метрик а в последствии и KPI (Key Performance Indicators), это одна из целей анализа. И просто посмотрев на базу данных не проводя даже EDA (Explanatory Data Analysis) невозможно даже начать отвечать на данный вопрос. Я бы начал c EDA. Затем попробовал бы почитать какие метрики используют в этой сфере.
    Ответ написан
    Комментировать