Ответы пользователя по тегу Data science
  • Как построить модель, когда обучающая выборка состоит из ежеминутных показаний?

    @dmshar
    В вашей задачи скорее всего показатель качества каким-то образом зависит от изменений параметров процесса в течении предыдущего часа (а может - не только одного, но и нескольких предыдущих часов - т.н. системы с задержкой. А может - и еще замысловатее - зависимость есть и от значения показателя качества в некоторые предыдущие периоды). Например - не было-ли выбросов, не происходили ли циклические изменения и пр. Таких показателей процесса - много. От тривиальных - среднего, среднеквадратичного отклонения, до более сложных - формы функции распределения значений, энтропии, наличия тренда и его характеристик и пр. И скорее всего именно от каких-то из этих показателей и/или их сочетаний, а так-же от взаимных изменений показателей наблюдаемых вами временных рядов между собой каким-то образом зависит то значение показателя качества, которое вы получаете ежечасно. Вот собственно это вам и надо выяснить. Т.е. анализируем процесс за час (это ваши входные данные) - делаем предсказание качества (это выходной результат вашей модели). Ну, можно, конечно, тупа попытаться запихнуть в какую нибудь сетку все своим сырые данные (N*60 точек за час, где N-количество ваших датчиков), но думаю толку от этого будет мало. Поэтому, очевидно, первый этап, который вам придется пройти - Feature engineering, т.е. конструирования параметров, по которым потом вы и будете обучать свою модель.
    Вот как-то так.
    Ответ написан
    Комментировать
  • Есть ли какие-нибудь методы для борьбы с отсутствующими данными?

    @dmshar
    Что означает "Не пропущенные, а именно отсутствующие.". Правильно-ли я понимаю, что например, признак А для объекта Х - присутствует, а для объекта Y - нет? Ну тогда надо выбрать соответствующий метод решения. Например, для задачи классификации методы на основании деревьев решений не требуют совпадения набора признаков для всех объектов.
    Ответ написан
    1 комментарий
  • Лучший курс для старта в Data Science?

    @dmshar
    Курсов - сотни. Разных. Что бы выбрать наиболее подходящие, необходимо знать ваш начальный уровень знаний математики и программирования.
    Ибо понимание "базиса" у каждого сове - у кого-то это линейная алгебра и теорвер, у кого-то таблица умножения. У кого-то С++, у кого-то умение запустить игру на компьютере.
    И это очень сильно влияет на "подходящесть" курсов.
    Ответ написан
    4 комментария
  • Можно ли оценить относительную важность признаков?

    @dmshar
    Надеюсь, такое понятие, как "корреляция" вам известно. При этом корреляция бывает не только классической, Пирсоновской, измеряемой на количественных данных, но и специальной, приспособленной для работы с ранговыми данными (корреляции Кенделла, Спирмана), с номинальными данными, с дихотомическими данными и с их комбинациями.
    Таким образом, для вашего примера можно формально определить, что, например, в группе мужчин с бинарным признаком "купил/не купил" больше коррелирует номинальный признак "материал" чем номинальный признак "цвет", а в группе женщин - наоборот.
    Задача достаточно известная и неплохо описанная в любом курсе современного статистического анализа.
    Ответ написан
    1 комментарий
  • Как классифицировать новость с помощью машинного обучения?

    @dmshar
    Меня всегда интересовало - люди начинают заниматься такими вопросами из соображений простого любопытства или им дают такое задание по работе? Если первое - то почему сразу за советами в форум, а не элементарный поиск в интернет или чтение учебника. Если второе - то почему не объяснить работодателю, что вы не специалист в теме?
    А информации не самом деле уйма - книги, веб ресурсы, курсов, любой учебник по машинному обучению содержит соответствующий раздел или как минимум пример.

    https://www.slideshare.net/compscicenter/-32801202
    https://www.youtube.com/watch?v=hULD4jS5DEc
    https://towardsdatascience.com/text-classification...
    xplordat.com/2018/12/14/want-to-cluster-text-try-c...
    https://www.analyticsvidhya.com/blog/2018/11/tutor...
    https://habr.com/post/346206/
    https://nlpub.ru/
    Ответ написан
    Комментировать
  • Как развить гуманитарный ум\подход(энтропию) для лучших результатов в дата саенс?

    @dmshar
    Не очень понятно. Вас интересует "как развивать" или "как применять". Это как бы разные вещи.
    Прежде чем ЖДАТЬ ОТВЕТА на вопрос "как применять?" попробуйте САМИ дать ответ на вопрос - "а зачем?"
    А развивать понятно как - "думать" (ну, или если школьник/студент - то "учиться И думать"). Или вы верите что есть какие-то специальные таблетки (заклинания, упражнения) для развития ума?
    P.S. Кстати, начать рекомендую с выяснения того, что означает слово "энтропия".
    P.P.S. И еще раз "кстати" - "как развивать матаппрат" вы уже для себя, надеюсь, выяснили:
    ( Как развить мат. аппарат до минимального уровня для машинного обучения и дата саенс? ) ?
    Ответ написан
    Комментировать
  • Какой используется метод для обнаружения аномалии в случайной последовательности?

    @dmshar
    Эх, поздно увидел вопрос - не тот тег вы ему дали.
    Тут уже напридумывали-насоветовали такого.... В то время, как задача у вас абсолютно классическая, хорошо изученная, описанная и даже в учебники включенная. Другое дело, что и методов ее решения много - в зависимости от особенностей данных с которыми вы работаете.
    Называется то, что вы хотите сделать - "поиск аномалий во временных рядах". По этой фразе гуглится легко. Для входа в тему можно начать, например, вот отсюда:
    https://dyakonov.org/2017/04/19/поиск-аномалий-ano...
    или вот отсюда
    https://www.datascience.com/learn-data-science/fun...
    Есть и более серьезные описания. Если заинтересует - подскажу.
    P.S. Забыл сказать - правильные теги для вашего вопроса - "Машинное обучение", "Data science", "Математическая статистика", "Data mining", ну, может еще с большой натяжкой - "Нейронные сети".
    Ответ написан
    Комментировать
  • Какой минимальный уровень знаний для работы в анализе данных/ML?

    @dmshar
    Вариантов ответов на ваш вопрос - огромное множество. Но если информация аж трехлетней давности для вас - устарела (хотя я не понимаю, как могут устаревать базовые, фундаментальные знания . Да и более свежих версий на Тостере - навалом. Ну да ладно) , то вот вам новейшее изыскание на заданную тему
    https://dev.by/news/kak-izuchit-data-science
    Ответ написан
    Комментировать
  • Какие книги для начинающего по Data Science?

    @dmshar
    Вопрос несколько странный ввиду реально НЕСМЕТНОГО количества книг по DS,
    BD, ML вышедших в последнее время. На любых языках, для любого стартового уровня образования, с прицелом на различные инструменты. Берите любую и начинайте учить. Когда что-то станет ясно и захочется углубить или наоборот, когда что-то станет непонятно - ищете целенаправлено другой источник, в котором уже известная вам тема изложена глубже или яснее. И так двигаетесь, расширя свой кругозор в тема.
    Если сложно самомунайти - есть уже составленные списки, например:
    https://ru.stackoverflow.com/questions/Книги-и-уче...
    Или
    https://www.learndatasci.com/free-data-science-books/
    И подсказок в сети тысячи - как, что и в каком порядке учить. Например:
    https://proglib.io/p/learn-data/
    Вот куча дополнительных ресурсов.
    www.7wdata.be
    https://www.datasciencecentral.com
    https://datascienceplus.com
    https://www.kdnuggets.com
    https://www.analyticsvidhya.com
    https://towardsdatascience.com
    Удачи.
    P.S. " стоит выбор между К.Доугерти "Введение в эконометрику" и Гмурман "Теория вероятностей и математическая статистика" - может ктото может подсказать принципиальную разницу между этими книгами?"
    ----> Принципиальная разница: Гмурман дает общую теорию, хорошую основу, универсальный учебник.
    Доугерти больше ориентирован на специализированную нишу экономических и социальных задач.
    Оба неплохи для изучения статистики на соответствующих специальностях в универе.
    Начинать с нихсамостоятельное изучение я бы не рекомендовал. Лучше гляньте список и рекомендации, приведенные выше и из них выбирайте.
    Ответ написан
    Комментировать
  • Список литературы (или курсов) математики для Data Scientist?

    @dmshar
    Так "список литературы и курсов для Data Scientist" (как в названии) или" Список литературы(или курсов) МАТЕМАТИКИ для Data Scientist" (как в тексте). Это как бы немного разные вещи.
    На базе 7-9 класса можно, конечно, захотеть и Великий адронний колайдер следать дома на кухне, но все-таки рекомендую для Data Science остановиться на любом наборе курсов математики на уровне 2-3 курса вышки. Ну, например, - линейная алгебра+методы оптимизации с численными методами+теория вероятности и основы матстатистики+основы дискретной математики +алгоритмы обработки данных.
    Любые учебники - вполне пригодны. Наичнайте читать и если вам понятно и учебник "зашел" - алтернативы искать не стоит .
    А если текущий уровень - это 7-9 класс" - ну так стоит начать с того, что-бы довести его до уровня, при котором можно начинать университетские учебник читать - т.е до уровня выпускного класса (как минимум).
    Удачи.
    Ответ написан
    4 комментария
  • Изучать анализ больших или малых данных?

    @dmshar
    Не верю, что человек, который "накопил много знаний" может задать вопрос, типа "что изучать, matplotlib, pandas или Hadoop, MapReduce". Может надо не "накапливать", а хотя-бы пытаться понять, что такое "корреляция", а что такое "паттерны проектирования" и в чем между ними принципиальная разница?
    Ответ написан
    Комментировать
  • Магистратура/(PhD?) Data Science в Европе?

    @dmshar
    Посмотрите здесь:
    www.kdnuggets.com/education/europe.html
    На счет - что лучше.... Вы действительно считаете, что кто-то проучился на нескольких таких программ и может квалифицированно их сравнить?
    Ответ написан
    Комментировать