Ответы пользователя по тегу Data science
  • Разумно ли начало it-карьеры с Data Science & ML?

    @dmshar
    В вашем вопросе мне видится две стороны. Попробую ответить.

    Сторона 1. "Имею высшее техническое образование, денег не хватает, хочу больше (вполне нормальное - с моей точки - зрения желание), слышал, что в IT легко можно хорошо заработать (почти неправда! ), хочу стать программистом". В такой постановке вам придется конкурировать с десятками тысяч джунов, которые к тому же имеют образование не по загадочному "rocket science", а по вполне конкретному "computer science" и смежным специальностям, а следовательно конкуренцию с ними у вас большой шанс, увы, проиграть. Таких желающих даже на этом форуме - по десятку в неделю пишут посты, их становится все больше, а реальная потребность рынка близка - или даже перешла - точку насыщения. И если бы на этом было все в вашем вопросе - я бы не стал даже отвечать, ибо порядком надоело.

    Но! В вашем вопросе была и
    Сторона 2. "Имею высшее техническое образование, неплохую мат. подготовку, интересует анализ данных". Многие представляют себе проекты в DataScience - как "написал обращение к функции (или вызвал нейросеть), она мне все обсчитала (любую фантазийную задачу) выдала результат, я его сунул заказчику, он обомлел от счастья и отсыпал мне кучу бабла". К счастью, в реалии это вовсе не так. Для того, что бы заниматься DS надо знать (и любить!!) математику, теорвер, статистику и смежные дисциплины и быть готовым постоянно совершенствоваться в них (почему-то мне кажется, что у вас тут все в порядке) , знать программирование (да, без этого увы, нельзя - но вы готовы это наверстывать) и обладать экспертизой и серьезным пониманием процессов в той или иной предметной области. А вы - насколько я понял - есть специалист по технической диагностике. И вот тут у вас ОГРОМНОЕ преимущество. Перед теми, кто видит лишь маркетинговый антураж и по сути понимает DS как "котики направо - собачки налево".
    Дело в том, что применение DS в промышленных и производственных сферах - это не так модно и красиво, как "распознать лицо на фотке", или "распознавание рукописного текста с телефона", но поле применения огромное - от АЭС до Интернет-сетей, от точного земледелия до медицинских приборов. Просто даже не буду переводить: A Machine Learning Approach to Detect Industrial Plant Faults, Detection in mechanical structures problems using extreme value statistics, Condition Monitoring, Predictive Maintenance Opportunities, Predictive and Prognostics of Industrial Equipment, Prognostics and Health Monitoring in Complex Engineering Sysytems, Machine Learning Algorithms for Intrusion Detection System и т.д . За этими задачами реальное будущее применения ИИ и DS. И непаханое поле деятельности - до пенсии точно хватит. А специалистов DS, с компетенцией в соответствующей сфере - огромный дефицит. И тут у вас 10 корпусов преимущества перед другими конкурентами. И даже перед теми, кто заканчивал по чистой "Data Science". Кстати - как я могу судить по своим наблюдениям - не только внутри страны, но и на мировом рынке труда.

    Поэтому мой совет - все-таки определитесь со своей целью. Я бы советовал двигаться по второму пути. Как конкретно - это другой вопрос, который можно обсуждать уже дополнительно и отдельно, исходя их ваших реальных стартовых позиций и желаний.
    Удачи!
    Ответ написан
  • Что можно добавить в портфолио/резюме DS/ML инженеру?

    @dmshar
    Нормального работодателя привлекут не сертификаты или ноутбуки. Нормального работодателя в первую очередь привлечет содержимое ваших предыдущих проектов. По сети гуляет тысячи практически копий задач, часто абсолютно
    бесполезных с точки зрения реального применения, героических переписываемых из одного ноутбука в другой. И толку?
    Работодателя несомненно привлечет ваш опыт в решении практических задач в его предметной области. Подчеркну - "практических" и в "его" (или смежной) области. Вот это значит, что вам не придется месяцами разбираться в нюансах и отдача от вас будет достаточно быстро. Этот фактор в DS намного значимее, чем даже при разработке SW или системном администрировании. Фокус заключается в том, что именно в них - а по факту в умении транслировать язык предметной области в язык DS - заключается огромная доля "ценности" аналитика. И классный DS специалист в анализе речи может оказаться на первых порах практически беспомощным при решении задач в области - например - распознавания рентгеновских снимков. Пока не "въедет" глубоко в предметную область. Хотя по сути инструменты - очень близки.
    Сертификаты - тем более бесплатные, вещь говорящая только о том, что вы потратили определенное количество часов на изучение предмета - похвально, но не впечатляюще. Тем более таких сертификатов сейчас расплодилось достаточно много.
    Несколько повысить ваш рейтинг может ваши успехи на Kaggle или подобных конкурсах - но тут надо быть осторожным. Потому что есть большая разница между конкурсными решениями и реальными проектами реального бизнеса. Это как "олимпиадное программирование" и реальный опыт разработки ПО.
    Кстати, интересно выглядит ваше (подтвержденное) участие в некоторых открытых проектов - как минимум это говорит, что вы умеете работать в команде. Возможно - успехи на некоторых хакатронах, если вы сумеете красиво описать, что и как вы там решали, даже если не добились там побед.
    Ну вот как-то примерно так.
    P.S. И да, я про Datа Analysis и Machine Learning.
    "DS/ML инженер" - это совсем другая история, хотя многие (а в широких массах - большинство) этого и не понимают.
    Ответ написан
  • Есть ли аналоги ШАД в Европе?

    @dmshar
    На сколько я знаю, ни один приличный универ не берет на обучение людей, не умеющих, читать, писать и самостоятельно искать ответы на элементарные вопросы в Google.
    Ну вот вам "что-нибудь подобное", выбирайте:
    https://www.kdnuggets.com/education/europe.html
    Может кто и сжалится.
    Ответ написан
  • Чем pandas отличается по возможностям от MS Excel,MS Access, SQL?

    @dmshar
    Pandas - инструмент программирования, даются возможности, делай что хочешь. MS Excel,MS Access - закрытые инструменты: что дали тем и пользуйся. Шаг вправо, шаг влево - и сполошной головняк. Попробуйте на EXCEL реализовать какой-нибудь простенький метод типа WMW или ARIMA- замаетесь. Я уж не говорю, если что-то надо считать в режиме он-лайн. А табличку простенькую (и не очень) - конечно, проще вести на EXCEL. SQL - вообще доступ к БД и больше по сути ничего.
    Так что каждый овощ - в свой салат. А для каждой задачи - свой инструмент.
    Ответ написан
  • Как стать data scientist?

    @dmshar
    Не иссякаем поток.
    Надеюсь вы уже ознакомились со ВЧЕРАШНИМ постом:
    Машинное обучение, что нужно знать в математике?
    Прошли по ссылкам, посмотрели, оценили, выбрали наиболее подходящие именно для вас ( в том числе - по уровню подготовки, по финансовым и пр. возможностям) и пришли спрашивать о каких-то конкретных "ресурсах" а не "о вообще". Или хотите узнать мнения конкретных людей, а не обезличенных пользователях Тостера с непонятным отношением к Data Science. Ну, или приведенные в указанных постах рекомендациях вам по какой-то причине вообще ничего не подошло и вы хотите получить еще пару десятков ссылок для углубленного ознакомления?
    Ответ написан
  • Как проклассифицировать пост в социальной сети?

    @dmshar
    Ваш вопрос как-то уж очень сумбурный.
    Что удалось из него понять.
    1. Вы умеете выявлять тональность текста. Предположим - "негатив-позитив". Скорее всего результат можно нормировать в диапазон (-1;+1)
    2. Вы умеете классифицировать изображения "там" (кстати - где "там"?) Ну, проклассифицировали по классам. Может по дихотомическим, может по множественным. Получили некоторую оценку принадлежности к классу, которые сами предварительно выделили. В любом случае полученную оценку можно при необходимости нормировать.
    3. Что с чем связывать вы собрались? Если предположить, что и первая и вторая задача разбрасывала ваши посты по классам - то тогда вы теперь можете перейти к классической многомерной (а очень похоже - что всего-лишь двумерной) задаче классификации, которую можно решить любым известным методом. Правда, придется перепробовать разные методы, так-как универсального нет. Но есть надежда, что что-нибудь в диапазоне от kNN до случайного леса вам да и подойдет.
    4. Если есть добавочная информация - ну в худшем случае это увеличит количество признаков, с которыми работает классификатор.
    5. Как нет готового датасета? Вы же написали "я беру и обучаю свою модель по готовым датасетам". Т.е. есть датасет постов с текстами, очевидно - и с картинками, причем раз вы уже обучили - то значит он размеченный. И вы же сами пишете "к посту есть инфа о названии группы где он выложен, дате, количестве лайков и репостов". Ну не отбрасывайте эту информацию, а вместе с результатами сентиментного анализа и классификации изображений передавайте на конечный, обобщающий классификатор. Проблема-то в чем?
    Ответ написан
  • Что нужно изучать для глубокого анализа данных?

    @dmshar
    Начните с Мат.Анализа, раз уже такое слово выучили. Не пропадать же "областям из наук". А "чтобы выявить большое количество инсайтов из данных" - так вам лучше сразу в разведку. Чего мелочиться. (Кстати, объясните нам, неучам, что такое "инсайты из данных", пожалуйста.)
    Ответ написан
  • Литература или какие-нибудь курсы математики для машинного обучения?

    @dmshar
    Вот скажите, для вас действительно так непреодолимо трудно самостоятельно набрать в Гуугл соответствующий запрос и получить результат? Или это элементарная лень?
    Ну, выбирайте:
    Математика для машинного обучения и нейронных сетей при школьной базе знаний?
    https://tproger.ru/translations/ai-no-math-2/
    https://techrocks.ru/2019/09/06/15-books-on-machin...
    https://www.youtube.com/watch?v=8Akj6DECbcc
    Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
    С чего начать изучать машинное обучение?
    https://yandexdataschool.ru/edu-process/courses/ma...
    https://otus.ru/promo/math-ds/
    Онлайн обучение на специальность Data Science с нуля. Какие курсы выбрать?
    https://skillfactory.ru/math-stat-for-ds
    https://ai-news.ru/2018/08/matematika_dlya_analiza...
    https://www.ozon.ru/context/detail/id/24699920/
    http://www.machinelearning.ru/wiki/index.php?title...
    https://postnauka.ru/books/74127
    https://dataart.ua/articles/uchimsya-mashinnomu-ob...
    https://neurondata.ru/SJqXpe8vH
    https://it-events.com/events/14786
    https://ecoacademy.econophysica.ru/courses/mathema...
    Machine Learning и Big Data за три дня?
    Статистика для data science. С чего начать?
    Обратите внимание , специально для вас, все - на русском. Хотя без английского в эту тему лучше и не лезть.
    Ответ написан
  • Ликбез в Data science?

    @dmshar
    Под вашим (как и любым другим вопросом на этом сайте) есть специальная секция "ПОХОЖИЕ ВОПРОСЫ". Вот внимательно их штудируете на глубину примерно три-четыре года - это и будет вам лучший ликбез. И другим повторять по тридцатому разу одно и то-же не придется. А ответы на все ваши вопросы там точно есть.
    Ответ написан
  • С чего начать изучение анализа данных python?

    @dmshar
    Давайте с конца в начало.
    "Если самостоятельно, то с чего начать изучение?" - тут все понятно и однозначно. Если хотите учиться самостоятельно, то начинать надо, естественно с обучения самостоятельному поиску нужной информации в сети. Хотя-бы с помощью Гуугла. А затем - самостоятельному принятию решений.

    "стоит ли тратить такие большие деньги, или же лучше начать изучение самостоятельно" - вообще-то что бы стать специалистом, надо потратить очень много времени. Правило 1000 часов никто не отменял. Особенно в таком "мозгоёмком" направлении как Data Science. Вон люди ведут дискуссии на тему - необходим-ли уровень phD, что-бы считать себя специалистом по анализу данных, или достаточно магистерского уровня по профильной специальности. Поэтому обязательно включите в список рассматриваемых альтернатив "получение высшего образования". И возможно это должен быть первым вариантом. А уж если по каким-то причинам не получиться - то переходить к следующим.

    "цены начинаются от 60 тысяч рублей." - вообще-то весьма гуманно. Вы же, когда станите специалистом, за бесплатно работать не захотите. Вот и люди тоже хотят. Тут надо смотреть не на ценник, а на то, кто и что вам будет рассказывать. Если вчерашний студент или человкек без опыта (кстати, как профессионального, так и методического) - то я бы не платил. А если это люди с известными именами, известные лекторы, известные разработчики (действительно известные и авторитетные, а не те, кто себя такими считает) - то цена за возможность лично задать вопрос, лично у него чему-нибудь научиться - весьма адекватна. Так что тут надо смотреть внимательно.

    Ну и еще одно - хотите специализироваться в Аналитике данных (и в программировании, кстати, тоже) - не забудьте об английском.
    Ответ написан
  • Нужно ли высшее образование для получения работы в data science или достаточно самообразования с помощью он-лайн курсов и книг?

    @dmshar
    Все зависит, от чего вы отталкиваетесь. Если есть хорошая (не средняя, а именно хорошая и грубокая) подготовка по вышке в хорощем техническом вузе, желательно на ИТ-специальности - тогда начать осваивать DS можно и самому. Вопрос - хватит-ли у вас времени и усердия. Потому как в отличии от изучения тех-же языков программирования тут за пару месяцев - точно не управитесь.
    Ответ написан
  • Обучение Data Science?

    @dmshar
    1. Сколько времени в день уделять линейной алгебре и как ее изучать самостоятельно?

    Не важно, сколько времени уделять, важно - понимать (не запоминать конкретные факты, а именно понимать "что и почему").
    Вот мнение (одно из многих) о том, что надо из математики:
    https://habr.com/ru/post/432670/

    Занимаюсь по Лутцу и решаю задачи на codewars и hackerrank. Достаточно ли этого?

    Более чем. Но на самом деле, для Data Science понадобятся ОСНОВЫ Python плюс соответствующие библиотеки, в первую очередь Numpy, Matplotlib, Scipy, Pandas. Первую надо понять(!) до перехода к практическим задачам, последние три, а также Scikit-Learn и Tensorflow можно разбирать параллельно с собственно Data Science (точнее с Мachine Learning, потому что, например Data Engineering - это вообще отдельная тема).
    Но! Надо понять, что Мachine Learning - это не программирование на Python (или любом другом языке программирования). Это отдельная наука. А все, что перечислено выше - только легкая "подводка" к теме.
    Ответ написан
  • Как загрузить csv датасет?

    @dmshar
    Да ну! Работаешь на Python и не можешь файл загрузить????
    Бросай ты это дело: рукописные буквы, нейросеть, tensorflow всякие.
    Нельзя учить атомную физику не выучив таблицу умножения. Или спорить будешь? Так почему ты решил, что сможешь работать с нейросетями не научившись элементарно программировать? А то боюсь, следующим вопросом будет "как цикл написать".
    Да, и по ходу подтяни свои навыки поиска в Гуугл. Очень пригодится.
    Ответ написан
  • Какие преимущества нейронной сети Хэмминга перед алгоритмом сравнения расстояния Хэмминга?

    @dmshar
    Вообще-то, согласно Википедии
    Нейронная сеть Хэмминга — вид нейронной сети, использующийся для классификации бинарных векторов, основным критерием в которой является расстояние Хэмминга.
    Так что, что с чем вы противопоставляете - не совсем понятно.
    Но вот волнует другое. Как мне кажется, понятие "наиболее похожее изображение" - весьма расплывчатое. Ну, например, предполагает-ли они похожесть картинок, изображение на которых разномасштабно? Или использует разные гаммы цветов? Или содержит графические искажения изображения? Или просто - пожожие это те изображения, на которых изображены (не важно как) предметы одного класса? И.т.д.
    И сдается мне, что Нейронная сеть Хэмминга с большинством из этих задач не справиться по определению.
    Ответ написан
  • Machine learning / Data science / Data analytics?

    @dmshar
    Если и вправду "В этом я полный ноль," - то путь у вас один единственный. Нанять специалиста (специалистов!!!) заплатить денег и поручить им решить вашу задачу.
    Потому что путь "Хочу всё свободное время потратить на изучение данной предметной области" - он похвальный. Но тупиковый. Через примерно 500 часов изучения (в реалии, думаю, что в несколько раз больше, т.к. судя по стилю вопросу, вы не только в ML полный ноль, но и в разработке ПО, анализе систем и еще в паре-тройке направлений, который придется задействовать - не даром я написал "специалистов" во множественном числе) - так вот, после того, как вы найдете это количество "свободного времени" и полностью потратите его на получение соответствующих знаний, думаю, и ваша задача потеряет актуальность и вы потеряете к ней интерес.

    И да, ваша задача к ML имеет очень касательное отношение, реально потребуются во многом другие знания и подходы.

    P.S. Ну почему все вдруг решили, что изучение ML самостоятельно, в свободное время и на дому это проще, чем такое-же изучение, например, геофизики или хирургии???
    Ответ написан
  • Статистика для data science. С чего начать?

    @dmshar
    Повторял и повторяю. Первое, чему должен научиться любой школьник, желающий стать специалистом по Data Seince - это умению САМОСТОЯТЕЛЬНО искать в сети хотя-бы элементарную, первичную информацию.
    Не понимаю, неужели проще писать вопрос на форуме, часами ждать ответов, потом разбираться в них, отсеивать ложные, препираться с ответившими и пр. и тратить на это несколько дней, чем за 20 секунд набрать в Гуугле "статистика и анализ данных", через пять секунд на первой-же странице получить исчерпывающий список и книг, и сайтов, и блогов, и видео по теме и ровно через минуту начать заниматься тем, что тебя интересует? А на форум идти тогда, когда что-тот конкретное станет непонятным?

    Подсказка - если Гуугл отключен, то на этом-же форуме туча аналогичных вопросов. Просто слово в слово. Вы их смотрели, анализировали? Они вам чем-то не подошли или вы засомневались в компетентности ответов?
    Ответ написан
  • Лучшие системы AutoML на основе табличных данных?

    @dmshar
    Как-то весьма сумбурно. И как мне кажется - заход не с той стороны.
    Поясню.
    1. ML - это не PHP, Python или С++. Это в первую очередь знание и опыт применения методов - как вы пишете - "предугадывания" (в том числе, конечно). Поэтому опыт ваших программистов - это последнее, о чем следует заботится, если вас интересует "Ещё раз подчеркну — исследование"
    2. Ну предположим, найдете вы что-то вроде self-hosted AutoML Tables. Теперь читаем "AutoML Tables enables your entire team of data scientists, analysts, and developers to automatically build and deploy state-of-the-art machine learning models on structured data at massively increased speed and scale." Т.е. в первую очередь - специалисты по DS и аналитики! Они у вас есть? Если есть - то спросите их, с какими инструментами они хотят работать. Если нет, то.... чудес не бывает.
    3. Вот когда вы подберете DS-специалистов, когда они продумают, каким образом надо анализировать ваши данные, выполнят Feature engineering, подберут (выберут) хотя-бы класс методов, которые имеет смысл применять, проведут пилотное исследование данных, приблизительно оценят их перспективность - и вполне может ( и скорее всего так оно и будет) оказаться, что именно для вашей задачи возможностей AutoML не хватает, - вот тогда и надо будет говорить и о фермах видеокарт и об опыте конкретных девелоперов.
    И рекомендую в самом начале пути осознать, что AutoML - это вовсе не мясорубка - на вход кусок мяса, на выходе - фарш.
    4. А так, AutoML систем на рынке достаточно. Ну, на вскидку - H2O AutoML,Auto-WEKA, TransmogrifAI, Firefly и т.д. Вот тут последний (по времени) обзор
    https://www.datasciencecentral.com/profiles/blogs/...
    и неплохие ссылки для дальнейшего чтения.

    P.S. И, кстати, 5 ГБ логов - это весьма скромный объем, тем более для всякого типа AutoML.
    Ответ написан
  • Какие курсы выбрать для обучения на Data analyst/Data scientist с нуля?

    @dmshar
    Господи, слава Богу, что никому на ум не приходит написать "Попала вожжа под xвост. Xочу за год стать трушным хирургом/кардиологом (больше всего операции по пересадке сердца интересуют). С нуля, базового медицинского образования нет. "
    А че там мелочиться.
    А ниче, что для того что-бы стать специалистом в ЛЮБОЙ области надо потратить 10000 часов. Ладно, пусть вы суперталант и вам надо не 10К, пусть в два раз меньше - 5K. Из расчета 8 часов каждый день пять дней в неделю - это уже 120 недель, т.е. почти два с половиной года. Вы готовы столько тратить помимо "работы для оплаты курсов и пропитания"?
    Впрочем, конечно, сейчас вам тут насоветуют супер-пупер книжек, видеороликов и курсов. Ну, вперед, к мечте. Только когда поймете, что жизнь - это не рекламный ролик, а время и деньги - потрачены почти в холостую - не говорите, что вас не предупреждали.
    Ответ написан
  • Как построить модель, когда обучающая выборка состоит из ежеминутных показаний?

    @dmshar
    В вашей задачи скорее всего показатель качества каким-то образом зависит от изменений параметров процесса в течении предыдущего часа (а может - не только одного, но и нескольких предыдущих часов - т.н. системы с задержкой. А может - и еще замысловатее - зависимость есть и от значения показателя качества в некоторые предыдущие периоды). Например - не было-ли выбросов, не происходили ли циклические изменения и пр. Таких показателей процесса - много. От тривиальных - среднего, среднеквадратичного отклонения, до более сложных - формы функции распределения значений, энтропии, наличия тренда и его характеристик и пр. И скорее всего именно от каких-то из этих показателей и/или их сочетаний, а так-же от взаимных изменений показателей наблюдаемых вами временных рядов между собой каким-то образом зависит то значение показателя качества, которое вы получаете ежечасно. Вот собственно это вам и надо выяснить. Т.е. анализируем процесс за час (это ваши входные данные) - делаем предсказание качества (это выходной результат вашей модели). Ну, можно, конечно, тупа попытаться запихнуть в какую нибудь сетку все своим сырые данные (N*60 точек за час, где N-количество ваших датчиков), но думаю толку от этого будет мало. Поэтому, очевидно, первый этап, который вам придется пройти - Feature engineering, т.е. конструирования параметров, по которым потом вы и будете обучать свою модель.
    Вот как-то так.
    Ответ написан
  • Есть ли какие-нибудь методы для борьбы с отсутствующими данными?

    @dmshar
    Что означает "Не пропущенные, а именно отсутствующие.". Правильно-ли я понимаю, что например, признак А для объекта Х - присутствует, а для объекта Y - нет? Ну тогда надо выбрать соответствующий метод решения. Например, для задачи классификации методы на основании деревьев решений не требуют совпадения набора признаков для всех объектов.
    Ответ написан