Ответы пользователя dmshar по тегу «Data science»

Как построить модель, когда обучающая выборка состоит из ежеминутных показаний?

dmshar @dmshar

В вашей задачи скорее всего показатель качества каким-то образом зависит от изменений параметров процесса в течении предыдущего часа (а может - не только одного, но и нескольких предыдущих часов - т.н. системы с задержкой. А может - и еще замысловатее - зависимость есть и от значения показателя качества в некоторые предыдущие периоды). Например - не было-ли выбросов, не происходили ли циклические изменения и пр. Таких показателей процесса - много. От тривиальных - среднего, среднеквадратичного отклонения, до более сложных - формы функции распределения значений, энтропии, наличия тренда и его характеристик и пр. И скорее всего именно от каких-то из этих показателей и/или их сочетаний, а так-же от взаимных изменений показателей наблюдаемых вами временных рядов между собой каким-то образом зависит то значение показателя качества, которое вы получаете ежечасно. Вот собственно это вам и надо выяснить. Т.е. анализируем процесс за час (это ваши входные данные) - делаем предсказание качества (это выходной результат вашей модели). Ну, можно, конечно, тупа попытаться запихнуть в какую нибудь сетку все своим сырые данные (N*60 точек за час, где N-количество ваших датчиков), но думаю толку от этого будет мало. Поэтому, очевидно, первый этап, который вам придется пройти - Feature engineering, т.е. конструирования параметров, по которым потом вы и будете обучать свою модель.
Вот как-то так.

Ответ написан более трёх лет назад

Комментировать

Есть ли какие-нибудь методы для борьбы с отсутствующими данными?

dmshar @dmshar

Что означает "Не пропущенные, а именно отсутствующие.". Правильно-ли я понимаю, что например, признак А для объекта Х - присутствует, а для объекта Y - нет? Ну тогда надо выбрать соответствующий метод решения. Например, для задачи классификации методы на основании деревьев решений не требуют совпадения набора признаков для всех объектов.

Ответ написан более трёх лет назад

1 комментарий

Лучший курс для старта в Data Science?

dmshar @dmshar

Курсов - сотни. Разных. Что бы выбрать наиболее подходящие, необходимо знать ваш начальный уровень знаний математики и программирования.
Ибо понимание "базиса" у каждого сове - у кого-то это линейная алгебра и теорвер, у кого-то таблица умножения. У кого-то С++, у кого-то умение запустить игру на компьютере.
И это очень сильно влияет на "подходящесть" курсов.

Ответ написан более трёх лет назад

4 комментария

Можно ли оценить относительную важность признаков?

dmshar @dmshar

Надеюсь, такое понятие, как "корреляция" вам известно. При этом корреляция бывает не только классической, Пирсоновской, измеряемой на количественных данных, но и специальной, приспособленной для работы с ранговыми данными (корреляции Кенделла, Спирмана), с номинальными данными, с дихотомическими данными и с их комбинациями.
Таким образом, для вашего примера можно формально определить, что, например, в группе мужчин с бинарным признаком "купил/не купил" больше коррелирует номинальный признак "материал" чем номинальный признак "цвет", а в группе женщин - наоборот.
Задача достаточно известная и неплохо описанная в любом курсе современного статистического анализа.

Ответ написан более трёх лет назад

1 комментарий

Как классифицировать новость с помощью машинного обучения?

dmshar @dmshar

Меня всегда интересовало - люди начинают заниматься такими вопросами из соображений простого любопытства или им дают такое задание по работе? Если первое - то почему сразу за советами в форум, а не элементарный поиск в интернет или чтение учебника. Если второе - то почему не объяснить работодателю, что вы не специалист в теме?
А информации не самом деле уйма - книги, веб ресурсы, курсов, любой учебник по машинному обучению содержит соответствующий раздел или как минимум пример.

https://www.slideshare.net/compscicenter/-32801202
https://www.youtube.com/watch?v=hULD4jS5DEc
https://towardsdatascience.com/text-classification...
xplordat.com/2018/12/14/want-to-cluster-text-try-c...
https://www.analyticsvidhya.com/blog/2018/11/tutor...
https://habr.com/post/346206/
https://nlpub.ru/

Ответ написан более трёх лет назад

Комментировать

Как развить гуманитарный ум\подход(энтропию) для лучших результатов в дата саенс?

dmshar @dmshar

Не очень понятно. Вас интересует "как развивать" или "как применять". Это как бы разные вещи.
Прежде чем ЖДАТЬ ОТВЕТА на вопрос "как применять?" попробуйте САМИ дать ответ на вопрос - "а зачем?"
А развивать понятно как - "думать" (ну, или если школьник/студент - то "учиться И думать"). Или вы верите что есть какие-то специальные таблетки (заклинания, упражнения) для развития ума?
P.S. Кстати, начать рекомендую с выяснения того, что означает слово "энтропия".
P.P.S. И еще раз "кстати" - "как развивать матаппрат" вы уже для себя, надеюсь, выяснили:
( Как развить мат. аппарат до минимального уровня для машинного обучения и дата саенс? ) ?

Ответ написан более трёх лет назад

Комментировать

Какой используется метод для обнаружения аномалии в случайной последовательности?

dmshar @dmshar

Эх, поздно увидел вопрос - не тот тег вы ему дали.
Тут уже напридумывали-насоветовали такого.... В то время, как задача у вас абсолютно классическая, хорошо изученная, описанная и даже в учебники включенная. Другое дело, что и методов ее решения много - в зависимости от особенностей данных с которыми вы работаете.
Называется то, что вы хотите сделать - "поиск аномалий во временных рядах". По этой фразе гуглится легко. Для входа в тему можно начать, например, вот отсюда:
https://dyakonov.org/2017/04/19/поиск-аномалий-ano...
или вот отсюда
https://www.datascience.com/learn-data-science/fun...
Есть и более серьезные описания. Если заинтересует - подскажу.
P.S. Забыл сказать - правильные теги для вашего вопроса - "Машинное обучение", "Data science", "Математическая статистика", "Data mining", ну, может еще с большой натяжкой - "Нейронные сети".

Ответ написан более трёх лет назад

Комментировать

Какой минимальный уровень знаний для работы в анализе данных/ML?

dmshar @dmshar

Вариантов ответов на ваш вопрос - огромное множество. Но если информация аж трехлетней давности для вас - устарела (хотя я не понимаю, как могут устаревать базовые, фундаментальные знания . Да и более свежих версий на Тостере - навалом. Ну да ладно) , то вот вам новейшее изыскание на заданную тему
https://dev.by/news/kak-izuchit-data-science

Ответ написан более трёх лет назад

Комментировать

Какие книги для начинающего по Data Science?

dmshar @dmshar

Вопрос несколько странный ввиду реально НЕСМЕТНОГО количества книг по DS,
BD, ML вышедших в последнее время. На любых языках, для любого стартового уровня образования, с прицелом на различные инструменты. Берите любую и начинайте учить. Когда что-то станет ясно и захочется углубить или наоборот, когда что-то станет непонятно - ищете целенаправлено другой источник, в котором уже известная вам тема изложена глубже или яснее. И так двигаетесь, расширя свой кругозор в тема.
Если сложно самомунайти - есть уже составленные списки, например:
https://ru.stackoverflow.com/questions/Книги-и-уче...
Или
https://www.learndatasci.com/free-data-science-books/
И подсказок в сети тысячи - как, что и в каком порядке учить. Например:
https://proglib.io/p/learn-data/
Вот куча дополнительных ресурсов.
www.7wdata.be
https://www.datasciencecentral.com
https://datascienceplus.com
https://www.kdnuggets.com
https://www.analyticsvidhya.com
https://towardsdatascience.com
Удачи.
P.S. " стоит выбор между К.Доугерти "Введение в эконометрику" и Гмурман "Теория вероятностей и математическая статистика" - может ктото может подсказать принципиальную разницу между этими книгами?"
----> Принципиальная разница: Гмурман дает общую теорию, хорошую основу, универсальный учебник.
Доугерти больше ориентирован на специализированную нишу экономических и социальных задач.
Оба неплохи для изучения статистики на соответствующих специальностях в универе.
Начинать с нихсамостоятельное изучение я бы не рекомендовал. Лучше гляньте список и рекомендации, приведенные выше и из них выбирайте.

Ответ написан более трёх лет назад

Комментировать

Список литературы (или курсов) математики для Data Scientist?

dmshar @dmshar

Так "список литературы и курсов для Data Scientist" (как в названии) или" Список литературы(или курсов) МАТЕМАТИКИ для Data Scientist" (как в тексте). Это как бы немного разные вещи.
На базе 7-9 класса можно, конечно, захотеть и Великий адронний колайдер следать дома на кухне, но все-таки рекомендую для Data Science остановиться на любом наборе курсов математики на уровне 2-3 курса вышки. Ну, например, - линейная алгебра+методы оптимизации с численными методами+теория вероятности и основы матстатистики+основы дискретной математики +алгоритмы обработки данных.
Любые учебники - вполне пригодны. Наичнайте читать и если вам понятно и учебник "зашел" - алтернативы искать не стоит .
А если текущий уровень - это 7-9 класс" - ну так стоит начать с того, что-бы довести его до уровня, при котором можно начинать университетские учебник читать - т.е до уровня выпускного класса (как минимум).
Удачи.

Ответ написан более трёх лет назад

4 комментария

Изучать анализ больших или малых данных?

dmshar @dmshar

Не верю, что человек, который "накопил много знаний" может задать вопрос, типа "что изучать, matplotlib, pandas или Hadoop, MapReduce". Может надо не "накапливать", а хотя-бы пытаться понять, что такое "корреляция", а что такое "паттерны проектирования" и в чем между ними принципиальная разница?

Ответ написан более трёх лет назад

Комментировать

Магистратура/(PhD?) Data Science в Европе?

dmshar @dmshar

Посмотрите здесь:
www.kdnuggets.com/education/europe.html
На счет - что лучше.... Вы действительно считаете, что кто-то проучился на нескольких таких программ и может квалифицированно их сравнить?

Ответ написан более трёх лет назад

Комментировать

Войдите на сайт