Ответы пользователя по тегу Data science
  • Как оценить вероятность того, что среднее выборочное одного бета распределения больше среднего выборочного другого бета распределения?

    @dmshar
    Если интересует именно сравнение средних, и вы понимаете, зачем это вам нужно (Отступление - взгляните на картинки с pdf таких данных, это не нормальное и не равномерное распределение и даже не экспоненциальное распределение, которые более менее похожи между собой вне зависимости от значений параметров. Посмотрите, как pdf бета распределения меняется в зависимости даже не от самих параметров, а от их взаимоотношения) - так вот в этом случае ответ можно найти, построив доверительные интервалы средних а потом проверить их на пересечение. Ну вот, задал запрос Гууглу, получил в первых же строчках ответ:
    https://www.ipu.ru/sites/default/files/publication...
    По сути, вычисляете параметры ваших распределений, через параметры находите матожидания выборок, соответственно - их дов.интервалы и вот их сравниваете между собой. Нужны-ли такие сложности или можно ограничиться сравнения оценок параметров выборок из бета-распределения - это уже решать исследователю (т.е. вам).
    Ответ написан
    Комментировать
  • Какой уровень математики необходимо освоить перед изучением машинного обучения (в частности хендбук Яндекса)?

    @dmshar
    Да кто его знает, чему вас там в школе учат и чего вы уже выучили. Идете от другого - какая математика нужна для работы в DS, а уж от этого - ищите, что вам надо "добирать".

    https://habr.com/ru/post/708752/
    https://habr.com/ru/post/432670/
    https://habr.com/ru/company/sk%D1%96llbox/blog/663508/
    https://qna.habr.com/q/1256032
    https://www.datasciencecentral.com/tutorial-the-ma...
    https://www.analyticsvidhya.com/blog/2019/10/mathe...

    А вообще - даже на этом форуме таких тем было уже наверное более десятка. Просмотрите, сделайте выводы.
    Ответ написан
    Комментировать
  • Как оценить эффективность функции потерь для практических задач?

    @dmshar
    Вопрос некорректно сформулирован. Вернее - он сформулирован так, что ответить на него однозначно нельзя.
    Потому-что на вопрос "Посоветуйте пожалуйста источники или литературу, что можно посмотреть по этой теме." - любой учебник по Machine Learning обязательно содержит хотя бы одну главу на эту тему.
    А вот далее все зависит от ваших целей и задачи - а про этого мы без вас узнать ничего не можем
    Если вы "Пробовала разные метрики" - это уже хорошо. Но вот непонятно, что вас смутило при этом. Почему возник вопрос? Что осталось непонятным?
    Потому как в разных задачах помимо указанных вами (и еще ряда аналогичных) метрик используются и другие подходы, начиная от тривиальных ошибок I/II рода до AUC и ROC-кривых. А есть еще всякие информационное критерии Акаике, Байеса, Шварца и пр. И у каждого своя сфера применения и использования.
    Главная проблема исследователя в области Data Sсience и Machine Learning лежит не в знании всяких методов - в данном случае метрик. Хотя и это немаловажно. А именно в умении "перевести" проблемы с языка прикладной области на язык математики перед применением инструментов, и в умении интерпретировать полученные результаты после их применения.
    Поэтому для того, что-бы вам что-то конкретное советовать - надо понимать вашу конкретную задачу. "Предсказать количество пользователей" - это не цель, это просто некоторая учебная задача. Если это так, то и метод оценки вам должен быть задан. А вот если это реальная аналитическая проблема - тогда уже надо углубляться в проблему: зачем вы эти данные собираетесь предсказывать, что дальше делать с этими предсказаниями, как важны для вас ошибки и какие ошибки и т.д.
    Так что увы, или уточняйте проблему, или самостоятельно копайте информацию по любым источникам, а лучше - книгам.
    Ответ написан
    2 комментария
  • Как применить машинное обучение для медицинских данных (пример данных под катом)?

    @dmshar
    Сегодня по количеству работ по применению методов машинного обучения медицина наверное занимает второе место после финсектора. А вы спрашиваете, что можно сделать. Да что угодно - про IBM Watson надеюсь слышали? Так это только самый известный пример.
    Ну вот из последнего. Нечто даже прямо с habr'a.
    https://habr.com/ru/company/first/blog/682516/
    https://webiomed.ru/blog/obzor-rossiiskikh-sistem-...
    https://habr.com/ru/post/673312/
    https://towardsdatascience.com/machine-learning-in...
    https://towardsdatascience.com/ai-for-healthcare-a...
    https://developer.ibm.com/product-doclinks/
    https://www.cnews.ru/articles/2019-11-20_nmits_onk...
    https://data-flair.training/blogs/big-data-in-heal...
    ну и так далее. Читайте, смотрите, думайте. Одно знаю абсолютно точно (по опыту). Для того, что-бы разрабатывать такие системы нужна очень плотная кооперация и взаимопонимание между условным врачом и условным датасаентистом. А поскольку такие задачи с "налета" не решаются - у "врача" должна присутствовать очень мощная заинтересованность, а у обычных "энтузиастов" из-за сложности задач запал заканчивается как правило довольно быстро. И остается ИТ-специалист с полуготовым решением на руках, которое и не приткнёшь никуда, и не лицензируешь и уж тем более не доведешь до ума без помощи "врача". Поэтом у врача должен быть какой-то внешний стимул, причем очень сильный.
    Причем и "врач" и "датасаентист" в данном случае - это не один человек, а некоторые группы соответствующих специалистов. Иначе получите поделку, которая никому кроме самого автора и нафиг не будет нужной. Учтите это, когда будете искать "сотрудников".
    Ответ написан
  • Как производить прогнозирование временных рядов, если обучающая выборка - это множество нестационарых рядов с разными параметрами распределения?

    @dmshar
    Понятно, что нестационарные ряды предсказывать гораздо сложнее, чем нестационарные. Есть разные подходы. Начиная я классики - моделей, в которых присутсвует предварительная дифференциация значения ряда - та-же ARIMA, в частности.
    Другой подход - динамическая фрагментация ряда, когда вы делаете ищете такие фрагменты, внутри которых свойства ряда сохраняются. Модификации того подхода на стрим-модели ряда (те же методы change point detection) позволяют это делать в режиме реального времени.
    Если говорить об использовании в этой задачи методов моделирования - то работают они по принципу "скользящего окна", когда по выборке за последний период делается прогноз вперед, потом прогноз сравнивается с реально приходящими данными и по ошибке прогнозирования либо продолжают использовать старую модель, либо ее перестраивают. Дальше вопрос - какую модель вы используете. И какая природа данных, с которыми вы работаете - универсально "хороших" моделей нет по определению. Тем более, что и нестационарные ряды бывают очень и очень различными, и для каждой задачи надо искать-подбирать свой подход. Многие на этом кандидатские работы делают, кстати.

    О том, что мало источников в интернете - очень не соглашусь. Конечно, в русскоязычном фрагменте их не так много, как в англоязычном - то так-же пару сотен ссылок на статьи и сайты найти можно.
    Ответ написан
    Комментировать
  • Совместимы ли Golang и Machine Learning?

    @dmshar
    Давайте разделим - мухи отдельно, а котлеты отдельно.
    Вопрос первый:
    "Совместимы ли Golang и Machine Learning?" - Ответ "да". Существуют решения для МL и на Go, и на Python, и на С# и на Java, и даже на PHP и JavaScript. А если учесть, что процентов 80 инструментов для МL реализованы на С++ то и он задействован.
    Вопрос в том, на чем чаше работают при решении задач ИИ и ML - это уже совсем другой вопрос.
    Вопрос второй:
    "можно ли мне их будет совмещать в дальнейшем, чтобы работать сразу в двух направлениях." Если под "их" вы понимаете Go и ML - то см. выше. А если "backend" и ML - скорее всего нет. Впрочем, есть такая специальность, как "Machine Learning engineer" или еще говорят "Специалист по дата-инженерии". Там могут оба навыка как-то сблизиться и где-то пересечься. Но это не чистый "backend" и не чистое Машинное обучение. Посмотрите в эту сторону.
    Вопрос третий:
    "Не знаю, что выбрать backend разработку на Golang или Machine Learning" (кстати, а тут уже вы Go противопоставили МL - это случайность?)
    Вот тут за вас никто не решит, и не стоит перекладывать ответственность на других. Посмотрите, почитайте - благо в интернете на эту тему написано столько, что ни на одном форуме вам не расскажут что-то новое. Подумайте, что вам больше нравиться, к чему больше тянет. Вообще говоря это разные сферы - одна чисто технологическая, вторая скорее статистическо-математическая, где программирование используется только как инструмент. Не факт, что вы настолько разносторонне и равномерно подготовлены, что почувствуете себя одинаково комфортно в обоих сферах. И принимайте решение. Самостоятельно! Без оглядки на советы непонятно кого, с непонятно каким опытом и образованием.
    Удачи.
    Ответ написан
    Комментировать
  • Что изучать для написания нейросетей связанных с распознаванием аудио?

    @dmshar
    Нет "нейросетей связанных с распознаванием аудио" . Есть нейросети. И вот их и надо изучать. А уж потом - смотреть, как нейросети используются при решении задач "распознавания аудио".

    Но вообще-то что-бы по настоящему понять, как это все (нейросети) работает, начинать надо с базовых книг по Machine Learning, очень частным (но модным) случаем которого и есть теория нейросетей.
    Ответ написан
    Комментировать
  • Как понять какой алгоритм машинного обучения лучше подходит для задачи?

    @dmshar
    Если вы ПРОЧИТАЛИ книгу,но НЕ ПОНЯЛИ основ - то одно из двух: либо книжка была "не та", либо вы ее именно читали, но не разбирались в сути прочитанного. И надеяться на какие-то короткие статьи, в которых будет это то-ли более подробно изложено, то-ли специально адаптировано - весьма наивно.

    Совет - "не зашла" одна книга - ИЗУЧАЙТЕ (!!!) другую. Если не зайдет вторая, третья - то возможно, это "не ваше".
    Ответ написан
    2 комментария
  • Какой уровень математической подготовки для Аналитика Данных/Data Analyst?

    @dmshar
    Сужу по уже почти суточному молчанию - всем уже НАДОЕЛО отвечать по три раза в неделю на одинаковые вопросы. Попробуйте утрудить себя поиском ответом на него хотя-бы по этому самому форуму. Ну листаните страничку со своим вопросом вниз и - о чудо - вывалиться с десяток вопросов аналогичных вашему. Я уже не говорю о самостоятельном поиске в Гуугл, в котором вам будет любезно предоставлено несколько сотен ответов на ваш совершенно уникальный и неповторимый вопрос.

    И да, без навыков самостоятельно поиска ответов на свои школьные вопросы Аналитиком Данных не стать, увы. Так что вперед - оттачивать необходимые умения и навыки.
    Ответ написан
  • Что надо знать, чтобы стать стажером в Data Science?

    @dmshar
    Scipy, scikit-learn, statsmodels..... главное понимать, что Data Science - это не знание методов fit() и predict(). И для того, что-бы стать настоящим специалистом в этой области надо от "хорошей математической базы в таких дисциплинах, как....." перейти к их настоящему и углубленному изучению.
    Ответ написан
    Комментировать
  • Что нужно знать из матана и линейной алгебры для изучения Data Science?

    @dmshar
    Для того, что-бы начать изучение Data Science надо в первую очередь научиться самостоятельно Гууглить ответы на свои вопросы. Без этого, выпрашивая чужие подсказки на элементарнейшие вопросы - ну никак.
    Но если этого не освоили - то хотя-бы поиск по тому ресурсу, на котором собрались задавать вопрос.
    Если и этого не привыкли/научились делать - то вот срочно этим и займитесь. Потому что потом так и будете за каждым непонятным словом на форум бегать.
    А что-бы меня не обвинили, что я снова "недружественен к новичкам", дам вам несколько ссылок. Изучайте:
    Машинное обучение, что нужно знать в математике?
    Литература или какие-нибудь курсы математики для машинного обучения?
    Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
    Как выучить всю нужную математику для нейронных сетей?
    Какие книги по data analysis стоит изучить? В частности по статистике и математике. Есть ли книги полезные для биоинформатиков?
    Насколько хорошо надо знать математику в data science?
    https://towardsdatascience.com/the-roadmap-of-math...
    https://www.kdnuggets.com/2020/06/math-data-scienc...
    https://habr.com/ru/post/432670/?_ga=2.266374283.4...
    Ответ написан
    Комментировать
  • Как нейросеть формирует скрытые слои?

    @dmshar
    А вы сами-то пытались найти ответ на вопрос? Ведь информации в сети больше чем дофига. Зачем задавать на форуме тот вопрос, который всесторонне и подробнейше рассмотрен и в книгах и даже просто в интернет? Все равно тут лучше, чем в подготовленном источнике не объяснят.
    Ну ладно, хотите, что бы за вас нашли и преподнесли нужные источники - ну вот они, малая часть. Изучайте:
    https://habr.com/ru/post/461365/
    https://towardsdatascience.com/object-detection-wi...
    https://www.kdnuggets.com/2019/08/2019-guide-objec...
    https://www.pyimagesearch.com/2018/06/18/face-reco...
    https://towardsdatascience.com/introduction-to-ima...
    https://towardsdatascience.com/how-to-detect-objec...
    https://towardsdatascience.com/a-beginners-guide-t...
    https://towardsdatascience.com/computer-vision-cre...
    https://towardsdatascience.com/face-recognition-us...
    Ответ написан
    5 комментариев
  • Есть ли готовое решение для отображения информации о датасете в удобном для чтения виде?

    @dmshar
    Не совсем понятно, что вы хотите.
    " для отображения информации" что-бы "вообще код не писать" - экспортируйте свой датасет в csv-файл и работайте хоть EXCEL, хоть Tableau (для визуализации), хоть в SPSS.
    Если у вас данные - это временные ряды, то можете попробовать Grafana.
    Описательные статистики выводятся в pandas (ага :-) ) одной командой data.describe().
    Только вот я бы не сказал, что построить ту-же гистограмму проще в EXCEL или в Grafana чем в Python. Даже в Tableau что-бы получить то, что вам надо - надо хорошо разобраться в инструменте.
    Ответ написан
    3 комментария
  • Какие книги по data analysis стоит изучить? В частности по статистике и математике. Есть ли книги полезные для биоинформатиков?

    @dmshar
    А вы читайте и те и другие. Есть шанс стать специалистом. И пользы будет явно больше, чем от каких-то адаптаций для "полуспециалистов",
    Ответ написан
  • Какими способами в Python можно адаптивно нормализовать сигнал?

    @dmshar
    Изучайте теорию временнЫх рядов. Там все ваши вопросы решены уже давно.
    Из программных средств - библиотека scipy и statsmodels, где тоже практически все, что нужно имеется в наличии.
    Ответ написан
    Комментировать
  • Подкинете идей для диплома (Сбор или/и анализ больших данных)?

    @dmshar
    Доучиться до магистра и не уметь придумать темы для СВОЕГО диплома, а ждать, когда незнакомые люди что-нибудь насоветуют, не зная даже, а по какой специальности-то диплом. Жесть!
    Впрочем, что касается Big Data - то все очевидно. Нет у вас ни больших данных, ни ресурсов для работы с ними. И никогда не будет. Если вы слово "Big Data" все-же слышали в своем универе, то вас либо плохо учили, либо вы плохо учились, если этого так и не поняли.
    Ну и наконец. У вас есть научный руководитель диплома. Почему не обратиться к нему?
    Ответ написан
    3 комментария
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Господи, опять дисперсия, опять размах. Вы после этой темы
    Как соотносится дисперсия с sd?
    хоть один учебник открыли?
    Кто, где, когда вам сказал, что "дисперсия приближается к размаху"???? А тем более, что "дисперсия должна быть близка к размеру выборки"???? Если у вас будет набор на 10000000 элементов, то дисперсия тоже будет "приближаться"???? Да хоть формулу дисперсии посмотрите для интереса. Там размер выборки в ЗНАМИНАТЕЛЕ!!! Подумайте, что это означает в конце концов.
    P.S. Впрочем, подумал- надо бы узнать, в каком классе вы учитесь. Может я слишком многого от вас хочу?
    Ответ написан
  • Как соотносится дисперсия с sd?

    @dmshar
    Специально для вас сгенерировал нормальнораспределенные данные с вашими параметрами - М = 50, sd=10.
    и построил их гистограмму. 5f31c326b1974045390049.png
    Как легко видеть, в диапазоне от 20 до 80 лежат именно эти самые 99.7% данных. А что вы имели ввиду, когда писали "не сходится то что 60 это 99,73%" и "т.е 60 наблюдей в этом диапазоне [20;80] это 99,73% ?"- то непонятно, ни что вы в виду имели, ни что с чем не сходится. ни причем тут диапазон (60) а к проценту количества наблюдений (99,73%).
    Ответ написан
  • Применение ML моделей в production?

    @dmshar
    Когда уже люди поймут, что Ноутбуки - это средства объяснения, изложения, и публикации своего анализа, а не средства разработки чего-то серьезного.

    Если производительность не "печет" - то переписываем модель в нормальной форме Python-скрипта. Там и к БД можно обратиться и интерфейс нормальный прикрутить.

    Если производительность критична - например, системы управления быстропротекающих процессов в реальном времени - то либо компилируем наш скрипт (работает, но не очень), либо вообще переписываем на том-же С++.
    Ответ написан
    1 комментарий
  • Как можно задать условие для вывода модели машинного обучения?

    @dmshar
    Как было сказано выше - не понятно ничего из описания.
    Но!
    Если вам надо обеспечить что-бы десять каких-то чисел в сумме давали число Z, то это делается просто |t-Z|->min, где t - сумма этих десяти чисел. И это должен быть конечным слоем вашей нейросети. А вот предыдущие слои должны решать свои задачи (я могу предположить, что регрессии). Т.е. типичная многослойная сеть.
    Надеюсь, я хотя-бы в правильном направлении "продрался" через хащи вашего описания.
    Ответ написан
    Комментировать