Ответы пользователя по тегу Машинное обучение
  • Какой лучше выбрать алгоритм для кластеризации большого количества данных?

    @zexer
    А вы уже пробовали использовать k means или просто предположили, что будет долго?
    Ответ написан
    Комментировать
  • Как в нейронную сеть подать картинку, которую сама же сеть сгенерировала в первый раз?

    @zexer
    Можно узнать, откуда появилась уверенность, что это можно сделать через epoch?
    Ответ написан
    Комментировать
  • Важно ли высшее образование в Data science и Machine learning?

    @zexer
    В то время как такие классики как Константин Воронцов и Александр Дьяконов заявляют, что в базовых задачах анализа данных вам не нужны супер знания математики, Сергей Горностаев все продолжать рассказывать сказки про то, что в анализ данных приходят какие-то готовые опытные специалисты из других направлений.
    У вас может быть искажено восприятие реальности, но я открываю секрет: на такие позиции даже ищут стажёров и джунов, в том числе из-за того, что больше половины работы аналитика данных заключается в том как достать данные, обработать, сделать фильтрацию и так далее. Многие из этих задач вполне способны сделать и стажёры и джуны, разумеется под присмотром более опытных коллег.
    Не нужно думать что если речь про анализ данных, то это обязательно какие-то супер тяжёлые нейронки и глубокое обучение.
    Так же не нужно думать, что стажёры и джуны какие-то слабаки, многие из них вполне годно знают статистику, матан, линейную алгебру и даже методы оптимизации, это примерно 2-3 курс любого мат направления.
    Если ты действительно знаешь что такое производная и как она применяется, что такое градиент и некоторые матричные операции - остаётся добавить навыков питона и анализа данных, это не какие-то тяжёлые знания, для стажёра уровень будет соответствовать.
    Так же не нужно думать, что аналитик данных это только работа с моделями, как я уже сказал, во многих компаниях на эту должность приходится очень много переферии, в том числе выведение моделей в прод иногда лежит на самом аналитике.
    Рассказываю ещё один секрет, в 2020 году существуют такие библиотеки как xgboost, которые позволяют создать модель с приемлемой точностью, при этом не разбираясь в том, как оно работает внутри. Сказать, что так делают так называемые "макаки" - справедливо, но факт остаётся фактом - такие люди существуют только из-за того, что даже такие люди в состоянии решать задачи, никому не нужна борьба за проценты точности модели, а если нужна, то да, именно туда будут набирать супер опытных аналитиков.
    Ответ написан
    1 комментарий
  • Можно ли прогнозировать только по категориальным признакам в ML коих больше 100?

    @zexer
    Вы имеете ввиду, что у одного конкретного дома может иметься 200 признаков, но в основном имеются только 10 признаков, а остальные 190 признаков пустые?
    Тогда возникает вопрос, а от дома к дому имеется ли какая-то системность в том, какие признаки являются пустыми, а какие нет? Или же у одного дома не пустыми признаками будут признаки условно x1 - x10, а у другого x150-160?
    Сама суть прогнозирования стоимости заключается в том, что выбираются какие-то опорные признаки, которые оказывают влияние на стоимость. Должен быть какой-то признак x5 (а лучше несколько таких признаков), который будет у всех или почти у всех домов, чтобы изменчивость этого признака можно было связывать с изменчивостью цены.
    В любом случае, на первый взгляд данные выглядят очень сильно разреженными, что явно не позитивно сказывается на построении каких-то зависимостей.
    Так же неплохо было бы знать о количестве записей.
    Попробуйте сделать пару базовых моделей, вдруг что-то из этого получится.
    Ответ написан
  • Какой нужен ПК для изучения машинного обучения?

    @zexer
    Из запроса следует, что вы только собираетесь обучаться и делать несложные проекты, тогда вам хватит самого обычного среднего железа (intel core i3 2013 года даже).
    В машинном обучении есть множество алгоритмов, которые не требовательны к железу и ресурсам (разные виды регрессий к примеру), и кроме того, машинное обучение это не только строить десяток моделей за час, это сидеть и разбираться с имеющимися данными, делать различные фильтрации и обработки в пандасе, и если у вас датасет не 500 миллионов строк, а вполне обычный, то не переживайте, компьютер справится.
    Сильное железно нужно, когда вы начинаете строить нейронные сети сложнейшей архитектуры и на огромных датасетах, либо же делаете множество повторений расчетов (Grid Search параметров) на Кросс-Валидации. Но если вы только въезжаете в науку, вероятно вы даже не знаете об этих вещах, так что не парьтесь.
    А еще, абсолютно все туториалы, которые вы встретите, будут содержать маленькие датасеты, с которыми справятся практически любые компы.
    Ответ написан
    Комментировать
  • Какой стек технологий изучить для Machine Learning и Data Science?

    @zexer
    Вы для начала изучите то, что вы написали, а дальше уже сами поймете какие технологии нужны. На ум приходит какая-нибудь Scala, Linux, Elasticsearch (и прочие NoSQL вещи), в целом стек Apache (Spark, Hive, Pig), Tableau, Git, ну и разумеется Математический анализ, Линейная алгебра, Математическая статистика, Теория вероятностей, Дискретная математика, Методы оптимизации.
    А вообще Data Science это скорее не про технологии, а про область применения, так что если ты умеешь писать хороший и красивый код на Python, но не можешь выполнить бизнес задачу с его помощью, то тебе не поможет никакая технология.
    Ответ написан
    Комментировать
  • Где можно попрактиковаться с временными рядами (чистый анализ)?

    @zexer
    Развлекайтесь
    https://habr.com/ru/post/452392/
    https://habr.com/ru/company/mailru/blog/339496/
    https://r-analytics.blogspot.com/2011/12/r_241.html
    P.S. Вы задавали аналогичный вопрос 24 апреля, зачем задавать тоже самое? Вам там дали достаточно ответов.
    Ответ написан