Ответы пользователя по тегу Data science
  • Как производить прогнозирование временных рядов, если обучающая выборка - это множество нестационарых рядов с разными параметрами распределения?

    @dmshar
    Понятно, что нестационарные ряды предсказывать гораздо сложнее, чем нестационарные. Есть разные подходы. Начиная я классики - моделей, в которых присутсвует предварительная дифференциация значения ряда - та-же ARIMA, в частности.
    Другой подход - динамическая фрагментация ряда, когда вы делаете ищете такие фрагменты, внутри которых свойства ряда сохраняются. Модификации того подхода на стрим-модели ряда (те же методы change point detection) позволяют это делать в режиме реального времени.
    Если говорить об использовании в этой задачи методов моделирования - то работают они по принципу "скользящего окна", когда по выборке за последний период делается прогноз вперед, потом прогноз сравнивается с реально приходящими данными и по ошибке прогнозирования либо продолжают использовать старую модель, либо ее перестраивают. Дальше вопрос - какую модель вы используете. И какая природа данных, с которыми вы работаете - универсально "хороших" моделей нет по определению. Тем более, что и нестационарные ряды бывают очень и очень различными, и для каждой задачи надо искать-подбирать свой подход. Многие на этом кандидатские работы делают, кстати.

    О том, что мало источников в интернете - очень не соглашусь. Конечно, в русскоязычном фрагменте их не так много, как в англоязычном - то так-же пару сотен ссылок на статьи и сайты найти можно.
    Ответ написан
    Комментировать
  • Совместимы ли Golang и Machine Learning?

    @dmshar
    Давайте разделим - мухи отдельно, а котлеты отдельно.
    Вопрос первый:
    "Совместимы ли Golang и Machine Learning?" - Ответ "да". Существуют решения для МL и на Go, и на Python, и на С# и на Java, и даже на PHP и JavaScript. А если учесть, что процентов 80 инструментов для МL реализованы на С++ то и он задействован.
    Вопрос в том, на чем чаше работают при решении задач ИИ и ML - это уже совсем другой вопрос.
    Вопрос второй:
    "можно ли мне их будет совмещать в дальнейшем, чтобы работать сразу в двух направлениях." Если под "их" вы понимаете Go и ML - то см. выше. А если "backend" и ML - скорее всего нет. Впрочем, есть такая специальность, как "Machine Learning engineer" или еще говорят "Специалист по дата-инженерии". Там могут оба навыка как-то сблизиться и где-то пересечься. Но это не чистый "backend" и не чистое Машинное обучение. Посмотрите в эту сторону.
    Вопрос третий:
    "Не знаю, что выбрать backend разработку на Golang или Machine Learning" (кстати, а тут уже вы Go противопоставили МL - это случайность?)
    Вот тут за вас никто не решит, и не стоит перекладывать ответственность на других. Посмотрите, почитайте - благо в интернете на эту тему написано столько, что ни на одном форуме вам не расскажут что-то новое. Подумайте, что вам больше нравиться, к чему больше тянет. Вообще говоря это разные сферы - одна чисто технологическая, вторая скорее статистическо-математическая, где программирование используется только как инструмент. Не факт, что вы настолько разносторонне и равномерно подготовлены, что почувствуете себя одинаково комфортно в обоих сферах. И принимайте решение. Самостоятельно! Без оглядки на советы непонятно кого, с непонятно каким опытом и образованием.
    Удачи.
    Ответ написан
    Комментировать
  • Что изучать для написания нейросетей связанных с распознаванием аудио?

    @dmshar
    Нет "нейросетей связанных с распознаванием аудио" . Есть нейросети. И вот их и надо изучать. А уж потом - смотреть, как нейросети используются при решении задач "распознавания аудио".

    Но вообще-то что-бы по настоящему понять, как это все (нейросети) работает, начинать надо с базовых книг по Machine Learning, очень частным (но модным) случаем которого и есть теория нейросетей.
    Ответ написан
    Комментировать
  • Как понять какой алгоритм машинного обучения лучше подходит для задачи?

    @dmshar
    Если вы ПРОЧИТАЛИ книгу,но НЕ ПОНЯЛИ основ - то одно из двух: либо книжка была "не та", либо вы ее именно читали, но не разбирались в сути прочитанного. И надеяться на какие-то короткие статьи, в которых будет это то-ли более подробно изложено, то-ли специально адаптировано - весьма наивно.

    Совет - "не зашла" одна книга - ИЗУЧАЙТЕ (!!!) другую. Если не зайдет вторая, третья - то возможно, это "не ваше".
    Ответ написан
    2 комментария
  • Какой уровень математической подготовки для Аналитика Данных/Data Analyst?

    @dmshar
    Сужу по уже почти суточному молчанию - всем уже НАДОЕЛО отвечать по три раза в неделю на одинаковые вопросы. Попробуйте утрудить себя поиском ответом на него хотя-бы по этому самому форуму. Ну листаните страничку со своим вопросом вниз и - о чудо - вывалиться с десяток вопросов аналогичных вашему. Я уже не говорю о самостоятельном поиске в Гуугл, в котором вам будет любезно предоставлено несколько сотен ответов на ваш совершенно уникальный и неповторимый вопрос.

    И да, без навыков самостоятельно поиска ответов на свои школьные вопросы Аналитиком Данных не стать, увы. Так что вперед - оттачивать необходимые умения и навыки.
    Ответ написан
  • Что надо знать, чтобы стать стажером в Data Science?

    @dmshar
    Scipy, scikit-learn, statsmodels..... главное понимать, что Data Science - это не знание методов fit() и predict(). И для того, что-бы стать настоящим специалистом в этой области надо от "хорошей математической базы в таких дисциплинах, как....." перейти к их настоящему и углубленному изучению.
    Ответ написан
    Комментировать
  • Что нужно знать из матана и линейной алгебры для изучения Data Science?

    @dmshar
    Для того, что-бы начать изучение Data Science надо в первую очередь научиться самостоятельно Гууглить ответы на свои вопросы. Без этого, выпрашивая чужие подсказки на элементарнейшие вопросы - ну никак.
    Но если этого не освоили - то хотя-бы поиск по тому ресурсу, на котором собрались задавать вопрос.
    Если и этого не привыкли/научились делать - то вот срочно этим и займитесь. Потому что потом так и будете за каждым непонятным словом на форум бегать.
    А что-бы меня не обвинили, что я снова "недружественен к новичкам", дам вам несколько ссылок. Изучайте:
    Машинное обучение, что нужно знать в математике?
    Литература или какие-нибудь курсы математики для машинного обучения?
    Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
    Как выучить всю нужную математику для нейронных сетей?
    Какие книги по data analysis стоит изучить? В частности по статистике и математике. Есть ли книги полезные для биоинформатиков?
    Насколько хорошо надо знать математику в data science?
    https://towardsdatascience.com/the-roadmap-of-math...
    https://www.kdnuggets.com/2020/06/math-data-scienc...
    https://habr.com/ru/post/432670/?_ga=2.266374283.4...
    Ответ написан
    Комментировать
  • Как нейросеть формирует скрытые слои?

    @dmshar
    А вы сами-то пытались найти ответ на вопрос? Ведь информации в сети больше чем дофига. Зачем задавать на форуме тот вопрос, который всесторонне и подробнейше рассмотрен и в книгах и даже просто в интернет? Все равно тут лучше, чем в подготовленном источнике не объяснят.
    Ну ладно, хотите, что бы за вас нашли и преподнесли нужные источники - ну вот они, малая часть. Изучайте:
    https://habr.com/ru/post/461365/
    https://towardsdatascience.com/object-detection-wi...
    https://www.kdnuggets.com/2019/08/2019-guide-objec...
    https://www.pyimagesearch.com/2018/06/18/face-reco...
    https://towardsdatascience.com/introduction-to-ima...
    https://towardsdatascience.com/how-to-detect-objec...
    https://towardsdatascience.com/a-beginners-guide-t...
    https://towardsdatascience.com/computer-vision-cre...
    https://towardsdatascience.com/face-recognition-us...
    Ответ написан
    5 комментариев
  • Есть ли готовое решение для отображения информации о датасете в удобном для чтения виде?

    @dmshar
    Не совсем понятно, что вы хотите.
    " для отображения информации" что-бы "вообще код не писать" - экспортируйте свой датасет в csv-файл и работайте хоть EXCEL, хоть Tableau (для визуализации), хоть в SPSS.
    Если у вас данные - это временные ряды, то можете попробовать Grafana.
    Описательные статистики выводятся в pandas (ага :-) ) одной командой data.describe().
    Только вот я бы не сказал, что построить ту-же гистограмму проще в EXCEL или в Grafana чем в Python. Даже в Tableau что-бы получить то, что вам надо - надо хорошо разобраться в инструменте.
    Ответ написан
    3 комментария
  • Какие книги по data analysis стоит изучить? В частности по статистике и математике. Есть ли книги полезные для биоинформатиков?

    @dmshar
    А вы читайте и те и другие. Есть шанс стать специалистом. И пользы будет явно больше, чем от каких-то адаптаций для "полуспециалистов",
    Ответ написан
  • Какими способами в Python можно адаптивно нормализовать сигнал?

    @dmshar
    Изучайте теорию временнЫх рядов. Там все ваши вопросы решены уже давно.
    Из программных средств - библиотека scipy и statsmodels, где тоже практически все, что нужно имеется в наличии.
    Ответ написан
    Комментировать
  • Подкинете идей для диплома (Сбор или/и анализ больших данных)?

    @dmshar
    Доучиться до магистра и не уметь придумать темы для СВОЕГО диплома, а ждать, когда незнакомые люди что-нибудь насоветуют, не зная даже, а по какой специальности-то диплом. Жесть!
    Впрочем, что касается Big Data - то все очевидно. Нет у вас ни больших данных, ни ресурсов для работы с ними. И никогда не будет. Если вы слово "Big Data" все-же слышали в своем универе, то вас либо плохо учили, либо вы плохо учились, если этого так и не поняли.
    Ну и наконец. У вас есть научный руководитель диплома. Почему не обратиться к нему?
    Ответ написан
    3 комментария
  • Может ли sd=2, если размер выборки 25?

    @dmshar
    Господи, опять дисперсия, опять размах. Вы после этой темы
    Как соотносится дисперсия с sd?
    хоть один учебник открыли?
    Кто, где, когда вам сказал, что "дисперсия приближается к размаху"???? А тем более, что "дисперсия должна быть близка к размеру выборки"???? Если у вас будет набор на 10000000 элементов, то дисперсия тоже будет "приближаться"???? Да хоть формулу дисперсии посмотрите для интереса. Там размер выборки в ЗНАМИНАТЕЛЕ!!! Подумайте, что это означает в конце концов.
    P.S. Впрочем, подумал- надо бы узнать, в каком классе вы учитесь. Может я слишком многого от вас хочу?
    Ответ написан
  • Как соотносится дисперсия с sd?

    @dmshar
    Специально для вас сгенерировал нормальнораспределенные данные с вашими параметрами - М = 50, sd=10.
    и построил их гистограмму. 5f31c326b1974045390049.png
    Как легко видеть, в диапазоне от 20 до 80 лежат именно эти самые 99.7% данных. А что вы имели ввиду, когда писали "не сходится то что 60 это 99,73%" и "т.е 60 наблюдей в этом диапазоне [20;80] это 99,73% ?"- то непонятно, ни что вы в виду имели, ни что с чем не сходится. ни причем тут диапазон (60) а к проценту количества наблюдений (99,73%).
    Ответ написан
  • Применение ML моделей в production?

    @dmshar
    Когда уже люди поймут, что Ноутбуки - это средства объяснения, изложения, и публикации своего анализа, а не средства разработки чего-то серьезного.

    Если производительность не "печет" - то переписываем модель в нормальной форме Python-скрипта. Там и к БД можно обратиться и интерфейс нормальный прикрутить.

    Если производительность критична - например, системы управления быстропротекающих процессов в реальном времени - то либо компилируем наш скрипт (работает, но не очень), либо вообще переписываем на том-же С++.
    Ответ написан
    1 комментарий
  • Как можно задать условие для вывода модели машинного обучения?

    @dmshar
    Как было сказано выше - не понятно ничего из описания.
    Но!
    Если вам надо обеспечить что-бы десять каких-то чисел в сумме давали число Z, то это делается просто |t-Z|->min, где t - сумма этих десяти чисел. И это должен быть конечным слоем вашей нейросети. А вот предыдущие слои должны решать свои задачи (я могу предположить, что регрессии). Т.е. типичная многослойная сеть.
    Надеюсь, я хотя-бы в правильном направлении "продрался" через хащи вашего описания.
    Ответ написан
    Комментировать
  • Обучение data science, machine learning, big data, business analyst?

    @dmshar
    Если вы уже "нашли себя в аналитике", то надеюсь, вы уже проанализировали 127 ответов на подобный вопрос в этом-же форуме. И они вас чем-то не удовлетворили. Расскажите - чем именно, что-бы мы не повторяли в 128-й раз одно и тоже, а четко дали ответы на ваши четкие вопросы?
    Ответ написан
    4 комментария
  • С чего начать изучение ML?

    @dmshar
    Я уж было обрадовался, что подобные вопросы перестали задаваться. Уже недели как две или даже три. Ан нет. Обязательно кто-то ленивый, да найдется, кому лень (или не умеет? А такое сегодня бывает???) задать вопрос Гуугл самому или хотя-бы пролистать пару страниц этого-же форума. А зачем, пусть за него это делают другие. Ну да, на это же уходит много времени еще и самому принимать решение надо.
    С чего начать изучать машинное обучение?
    С чего начать обучение машинному обучению / deep learning / data mining?
    С чего начать изучать глубокое обучение?
    С чего начать изучение искусственного интеллекта?
    Machine Learning и Big Data за три дня?
    Как стать data scientist?
    Дорожная карта математических дисциплин для машинн...
    План обучения для специалиста по Data Science
    Машинное обучение, что нужно знать в математике?
    Литература или какие-нибудь курсы математики для машинного обучения?
    Как разобраться в области машинного обучения?
    Какие есть книги по нейронным сетям и ИИ?
    Путь data science. Как будет правильнее?
    Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
    Обучение Data Science?
    Я хочу изучать AI и машинное обучение. С чего мне ...
    Ответ написан
    Комментировать
  • Разумно ли начало it-карьеры с Data Science & ML?

    @dmshar
    В вашем вопросе мне видится две стороны. Попробую ответить.

    Сторона 1. "Имею высшее техническое образование, денег не хватает, хочу больше (вполне нормальное - с моей точки - зрения желание), слышал, что в IT легко можно хорошо заработать (почти неправда! ), хочу стать программистом". В такой постановке вам придется конкурировать с десятками тысяч джунов, которые к тому же имеют образование не по загадочному "rocket science", а по вполне конкретному "computer science" и смежным специальностям, а следовательно конкуренцию с ними у вас большой шанс, увы, проиграть. Таких желающих даже на этом форуме - по десятку в неделю пишут посты, их становится все больше, а реальная потребность рынка близка - или даже перешла - точку насыщения. И если бы на этом было все в вашем вопросе - я бы не стал даже отвечать, ибо порядком надоело.

    Но! В вашем вопросе была и
    Сторона 2. "Имею высшее техническое образование, неплохую мат. подготовку, интересует анализ данных". Многие представляют себе проекты в DataScience - как "написал обращение к функции (или вызвал нейросеть), она мне все обсчитала (любую фантазийную задачу) выдала результат, я его сунул заказчику, он обомлел от счастья и отсыпал мне кучу бабла". К счастью, в реалии это вовсе не так. Для того, что бы заниматься DS надо знать (и любить!!) математику, теорвер, статистику и смежные дисциплины и быть готовым постоянно совершенствоваться в них (почему-то мне кажется, что у вас тут все в порядке) , знать программирование (да, без этого увы, нельзя - но вы готовы это наверстывать) и обладать экспертизой и серьезным пониманием процессов в той или иной предметной области. А вы - насколько я понял - есть специалист по технической диагностике. И вот тут у вас ОГРОМНОЕ преимущество. Перед теми, кто видит лишь маркетинговый антураж и по сути понимает DS как "котики направо - собачки налево".
    Дело в том, что применение DS в промышленных и производственных сферах - это не так модно и красиво, как "распознать лицо на фотке", или "распознавание рукописного текста с телефона", но поле применения огромное - от АЭС до Интернет-сетей, от точного земледелия до медицинских приборов. Просто даже не буду переводить: A Machine Learning Approach to Detect Industrial Plant Faults, Detection in mechanical structures problems using extreme value statistics, Condition Monitoring, Predictive Maintenance Opportunities, Predictive and Prognostics of Industrial Equipment, Prognostics and Health Monitoring in Complex Engineering Sysytems, Machine Learning Algorithms for Intrusion Detection System и т.д . За этими задачами реальное будущее применения ИИ и DS. И непаханое поле деятельности - до пенсии точно хватит. А специалистов DS, с компетенцией в соответствующей сфере - огромный дефицит. И тут у вас 10 корпусов преимущества перед другими конкурентами. И даже перед теми, кто заканчивал по чистой "Data Science". Кстати - как я могу судить по своим наблюдениям - не только внутри страны, но и на мировом рынке труда.

    Поэтому мой совет - все-таки определитесь со своей целью. Я бы советовал двигаться по второму пути. Как конкретно - это другой вопрос, который можно обсуждать уже дополнительно и отдельно, исходя их ваших реальных стартовых позиций и желаний.
    Удачи!
    Ответ написан
  • Что можно добавить в портфолио/резюме DS/ML инженеру?

    @dmshar
    Нормального работодателя привлекут не сертификаты или ноутбуки. Нормального работодателя в первую очередь привлечет содержимое ваших предыдущих проектов. По сети гуляет тысячи практически копий задач, часто абсолютно
    бесполезных с точки зрения реального применения, героических переписываемых из одного ноутбука в другой. И толку?
    Работодателя несомненно привлечет ваш опыт в решении практических задач в его предметной области. Подчеркну - "практических" и в "его" (или смежной) области. Вот это значит, что вам не придется месяцами разбираться в нюансах и отдача от вас будет достаточно быстро. Этот фактор в DS намного значимее, чем даже при разработке SW или системном администрировании. Фокус заключается в том, что именно в них - а по факту в умении транслировать язык предметной области в язык DS - заключается огромная доля "ценности" аналитика. И классный DS специалист в анализе речи может оказаться на первых порах практически беспомощным при решении задач в области - например - распознавания рентгеновских снимков. Пока не "въедет" глубоко в предметную область. Хотя по сути инструменты - очень близки.
    Сертификаты - тем более бесплатные, вещь говорящая только о том, что вы потратили определенное количество часов на изучение предмета - похвально, но не впечатляюще. Тем более таких сертификатов сейчас расплодилось достаточно много.
    Несколько повысить ваш рейтинг может ваши успехи на Kaggle или подобных конкурсах - но тут надо быть осторожным. Потому что есть большая разница между конкурсными решениями и реальными проектами реального бизнеса. Это как "олимпиадное программирование" и реальный опыт разработки ПО.
    Кстати, интересно выглядит ваше (подтвержденное) участие в некоторых открытых проектов - как минимум это говорит, что вы умеете работать в команде. Возможно - успехи на некоторых хакатронах, если вы сумеете красиво описать, что и как вы там решали, даже если не добились там побед.
    Ну вот как-то примерно так.
    P.S. И да, я про Datа Analysis и Machine Learning.
    "DS/ML инженер" - это совсем другая история, хотя многие (а в широких массах - большинство) этого и не понимают.
    Ответ написан
    Комментировать