Ответы пользователя по тегу Машинное обучение
  • Где брать данные для изучения машинного обучения?

    @doktr
    Data Scientist
    Если еще актуально, то тут много всего интересного: www.quandl.com
    Ответ написан
    Комментировать
  • Как преобразовывать категориальные данные с закодированными значениями?

    @doktr
    Data Scientist
    Подойдет функция из pandas:
    pd.get_dummies(df['n_school'])
    Ответ написан
    Комментировать
  • Суть машинного обучения сводится к классификации проанализированных данных?

    @doktr
    Data Scientist
    Основная задача машинного обучения - разработать искусственный интеллект, обладающий восприятием, как минимум таким же, как у человека, чтобы анализировать в автоматическом режиме полученные с помощью данного восприятия факты и предсказывать на основе этого будущее.
    В идеале ИИ должен заменить человека на всех участках - из-за этого многие профессии могут скоро стать совершенно ненужными. Последние, кто останутся у дел - программисты ИИ. Уже сейчас у людей, занимающихся машинным обучением, годовой доход - самый высокий в мире IT. Конкуренция пока не очень большая, так что если начать изучать ML, то можно успеть.
    На Курсере много курсов по машинному обучению, но, возможно. еще понадобятся книги по линейной алгебре, теории вероятности, статистике и матанализу.
    Ответ написан
  • Какой курс по машинному обучению на Coursera полезнее?

    @doktr
    Data Scientist
    Вашингтонская специализация по ML мне показалась удачной. Недавно прошел ее первый курс - "Machine Learning Foundations: A Case Study Approach", сейчас изучаю второй - "Machine Learning: Regression". После курса ML от Эндрю Ына сначала показалось простовато, но, несмотря на более прикладной характер вашингтонской специализации, в нее включены некоторые алгоритмы, на которые у Ына места не хватило.
    Также большой плюс - в конце каждой недели есть не только тест, но и большое практическое задание (используется iPython Notebook, модули GraphLab, NumPy и т.д.), причем сначала используются готовые рабочие инструменты, а по мере продвижения нужно будет и собственные алгоритмы писать на Python'е. Видно, что труда в курс вложено достаточно, а это показатель того, что курс будет полезен.

    Если брать для сравнения курс Университета Джона Хопкинса "Practical Machine Learning" из специализации Data Science, то там все менее динамично и недостаточно практических заданий.

    Есть еще одна схожая специализация из Вашингтонского университета - "Tackle Real Data Challenges", но ее очень сложно воспринимать из-за достаточно монотонной подачи ведущего плюс практика предложена странная - предлагается поучаствовать в любом конкурсе на Kaggle (что само по себе, конечно, обязательная вещь, но нужны еще задания обучающие) и написать по нему обзор, что гораздо больше бы подошло курсу гуманитарной направленности, но никак не технической.

    P.S. К курсам российского производства у меня отношение скептическое. Если уж американцы в половине случаев не тянут, то чего ждать от отечественных производителей. Со специализацией МФТИ и Яндекса я, конечно, предварительно ознакомился. Начало динамичное - преподаватели вроде бы не страдают бубнением, активно жестикулируют (что тоже очень важно для более быстрого восприятия и концентрации внимания), на заднем фоне цветы, красивая мебель - все это очень хорошо. Если будет время в промежутках между вашингтонскими курсами, то обязательно пройду и этот курс.
    Пока что доступен только первый курс - там собственно машинного обучения нет (только линейная алгебра, начала анализа и Python). Но уже прослеживается нехорошая тенденция - курс состоит всего из 4 недель (понятно, что на математику и начальные знания по модулям больше тратиться не хочется, но что мешает добавить чего-то более существенного, более сложного), а в Вашингтонском первый и второй курсы (дальше пока не смотрел) - 6-недельные (по моему, меньшее количество недель в любом курсе - это явно мало, учитывая, что первая неделя в любом курсе - вводная), причем в первом же курсе в быстром темпе, но довольно подробно дан обзор по основным базовым темам и алгоритмам ML, разве что кроме нейронных сетей.
    Так что не воспринимать курс МФТИ и Яндекса как что-то более, чем дополнение к основным курсам Coursera либо рассчитанное на совсем уж начальную аудиторию, пока что особых оснований нет.
    Ответ написан
    3 комментария
  • Какой интересный проект можно сделать по машинному обучению?

    @doktr
    Data Scientist
    Возьмите задачу классификации изображений: определить, кто на фотографии - кошка или собака. Для обучения возьмите пару тысяч фотоизображений кошек и собак. Было бы интересно увидеть результат, хотя, возможно, кто-то уже добился успеха в данной теме.
    Ответ написан
  • Как понимать термин "предметная область"?

    @doktr
    Data Scientist
    Если человек занимается разработкой алгоритмов, например, для банка, то предметная область - финансы. Соответственно, Вам нужно описать, какие Вы будете распознавать образы и для чего.
    Ответ написан
    Комментировать