Ответы пользователя по тегу Машинное обучение
  • Достаточно ли материалов KhanAcademy по математике чтоб было возможно учить MachineLearning?

    @dmshar
    Ну, задаем вопрос в Гуугл, получаем кучу исчерпывающих ответов, ознакамливаемся, принимаем к действию, начинаем изучать.
    https://habr.com/ru/company/plarium/blog/442772/
    https://habr.com/ru/post/432670/
    ai-news.ru/2018/12/vazhnye_aspekty_matematiki_v_na...
    https://www.datasciencecentral.com/profiles/blogs/...

    За одно решаем, достаточно-ли того что преподают на Khana, что-бы покрыть список рекомендованных разделов и тем.
    Удачи.
    Ответ написан
    Комментировать
  • AI для карточной игры?

    @dmshar
    Если и вправду "Но в ML я полный null или nil. " то ответ на вопрос " с чего начать" самоочевиден. Начните с начала, с изучения ML. С азов.

    Что почитать, что выбрать? - этот вопрос задавался 284 раза даже на Тостере. Я понимаю, самому искать, читать, анализировать - лень. Хочется, что-бы кто-то это сделал за нас. Ну ладно, - вот тут:
    https://tproger.ru/curriculum/data-scientist-curri...
    www.cyberforum.ru/ai/thread2010374.html#post10584290
    https://proglib.io/p/data-science-faq/
    ai-news.ru/2018/10/podborka_resursov_po_mashinnomu...
    есть УЙМА информации про то и как начать, и в каком порядке изучать, и какие книги-сайты-видео смотреть. Выбирайте в зависимости от уровня своей подготовки, вкусов и настроения.

    Наверняка у них есть что-то ML. - у них, это у кого? И что именно "есть"? Да на Azure есть "Azure Machine Learning service". Но что вы хотите там найти? И как собираетесь этим пользоваться, не понимая даже, что вам надо?

    Возможно, кто-то уже этим пользовался - Чем, "Azure"? Да, пользовались. Думаю, десятки тысяч людей. И что? Как эта информация поможет вам в решении вашей задачи?

    В общем, непонятно, что конкретно вы ожидаете услышать в рамках ответе на ваш вопрос.
    Ответ написан
    1 комментарий
  • Собеседник на нейросети или как собрать велосипед?

    @dmshar
    А может, если пока не умеете самостоятельно произвести Google-поиск, создавать чат бота рановато? Ведь даже имея какие-то подсказки, возникнут десятки вопросы, ответы на которые придется спрашивать у Гуугла? Или опять придете сюда?
    Ну ладно, вот первая десятка ответов, который дал поиск. Для пользователей с разным уровнем исходной подготовки. Он вам по каким-то причинам не подходит?
    https://serpstat.com/ru/blog/kak-sozdat-chat-bota/
    https://shcherbakovs.com/stepbystep-plan-to-create...
    https://habr.com/ru/post/311008/
    https://vc.ru/services/57488-14-servisov-dlya-sozd...
    https://ain.ua/2017/03/23/5-servisov-kotorye-pozvo...
    https://ru.wix.com/russianhtml/leader-ru?utm_sourc...
    https://neurohive.io/ru/tutorial/kak-sozdat-chat-b...
    https://proglib.io/p/chat-bots-intro/
    https://habr.com/ru/post/317732/
    https://habr.com/ru/post/340190/
    Ответ написан
  • Machine learning / Data science / Data analytics?

    @dmshar
    Если и вправду "В этом я полный ноль," - то путь у вас один единственный. Нанять специалиста (специалистов!!!) заплатить денег и поручить им решить вашу задачу.
    Потому что путь "Хочу всё свободное время потратить на изучение данной предметной области" - он похвальный. Но тупиковый. Через примерно 500 часов изучения (в реалии, думаю, что в несколько раз больше, т.к. судя по стилю вопросу, вы не только в ML полный ноль, но и в разработке ПО, анализе систем и еще в паре-тройке направлений, который придется задействовать - не даром я написал "специалистов" во множественном числе) - так вот, после того, как вы найдете это количество "свободного времени" и полностью потратите его на получение соответствующих знаний, думаю, и ваша задача потеряет актуальность и вы потеряете к ней интерес.

    И да, ваша задача к ML имеет очень касательное отношение, реально потребуются во многом другие знания и подходы.

    P.S. Ну почему все вдруг решили, что изучение ML самостоятельно, в свободное время и на дому это проще, чем такое-же изучение, например, геофизики или хирургии???
    Ответ написан
    Комментировать
  • Что узнать, за счет чего растет качество модели?

    @dmshar
    Сначала надо определиться, а что-же вы понимаете под термином "сложность модели"?
    Потому что "сложности" , действительно, бывают разные - как минимум "структурная" и "вычислительная". Но походе, вы их малость перепутали.
    Возьмем ваш пример с Random Forest - увеличение количества сплитов не есть увеличение структурной сложности модели. Точно так-же, как и добавление новой переменной к нелинейной регрессионной модели заданного порядка не ведет к увеличению структурной сложности модели. А вот изменение - например - квадратичной модели на кубическую - ведет к изменению и структурной сложности и - как следствие - вычислительной.

    Eсли это себе ясно представить, то становиться понятным, что введение нового признака в рамках одной модели - есть действие, результат которого влияет на "качество модели" (кстати, тоже требует определения, но предположим, что вы имеете ввиду "точность"). И структура тут вообще ни при чем. А изменение структуры модели с квадратичной на кубическую может привести к аналогичному увеличению точности модели даже без добавления новых переменных.
    Ответ написан
    Комментировать
  • Путь data science. Как будет правильнее?

    @dmshar
    1."опыт написания фронта, опыт it рекрутера." - накакого отношения в Data Science. От слова "совсем".
    2. "Учился в техническом вузе по инженерной специальности, но спустя год осознал, что сама эта специальность не для меня." - т.е. недоучился? Кстати, если нет склонности к инженерным специальностям, откуда уверенность, что есть склонность к "Data Science"? Замечу, "хотелось бы стать" и "имею склонность к" - это очень разные вещи.
    3. "Математику знаю и понимаю хорошо" - откуда эта уверенность? Из школы? Или из универа в котором недоучились? Какие курсы математики все-таки "дослушали", какие успехи?
    4. "невнимательность при вычислениях." - Вообще-то говоря, DS - это не вычисления. Вернее, вычисление сегодня выполняют хорошо известные реализации методов в разных пакетах. DS - это прежде всего умение разобраться в методах, понять их суть, ограничения, особенности и пр. , умение отобразить данные предметной области на абстрактные математические методы а потом проинтерпретировать полученные результаты в терминах предметной области.
    5. "Хочу попробовать развиваться в нем. " - хочется - развивайся. В чем проблема? Получить благословение сообщества? Зачем? Если человеку что-то действительно чего-то хочется, то он берет и делает это. Иначе это выглядит как поиск оправдания того, почему "мне хочется, но я этим заниматься не буду".
    6. "Не помешает ли отсутствие профильного образования?" - помешает. Ну и ? Если хочется развиваться в этом направлении, то "профильное образование" все равно придется получать. Любым способом - в универе, на курсах, самостоятельно. Но получать придется. А как без него? Не обижайтесь, но DS - это не рекрутинг. Это гораздо серьезнее.
    7. "Не помешает ли особенности моего импульсивного порой мышления?" - Знаю спецов в DS с очень разным типом мышления. Еще раз вынужден повторить - не ищите отмазки "почему не надо этого делать".
    8. "Английский на неплохом уровне, но тяжко будет воспринимать англо-техническую речь" - на первом - а возможно и на всех последующих - этапах говорить на английском вам не придется, это точно. Воспринимать - ну разве что решите заниматься через запись на англоязычные обучающие курсы. Тут уж как захотите - в инете полно материалов - курсов, книг, блогов, форумов - и на русском, а в университете вряд-ли придется учится на английском. А вот чтение и понимание написанного английского - это таки обязательное условия вхождения в эту специальность. Иначе перспективы ваши в ней будут не интересней перспектив в рекрутинге.
    9. "А с чего, собственно, начать? Есть ли какие-то рекомендации по книгам/курсам. " - вот этого - навалом, даже на этом форуме. Настолько навалом, что даже не хочется в 254 раз повторять одно и то-же. Так что ищите, найдете. Надеюсь, Гууглом пользоваться умеете. Или хотя-бы просто пройтись по "Похожим вопросам" внизу. Но вот пользуясь случаем хочу еще раз подчеркнуть - основное умение специалиста по Data Science - это умение и навыки самостоятельного поиска, анализа и инетрпретации информации. Благо источники ее сегодня доступны для любого, у кого есть доступ к интернет.
    Удачи.
    Ответ написан
    3 комментария
  • Где найти людей которые занимаются разметкой данных для искусственного интеллекта?

    @dmshar
    Есть такие сервисы, где исполняют любое желание по сбору данных?)
    Вот, не группа, но целая фирма:
    https://vc.ru/tribuna/63360-handl-servis-razmetki-...
    Ну, а если знаете китайский :-) - то:
    https://neurohive.io/ru/novosti/fabriki-razmetri-d...
    А тут небольшой обзор:
    https://habr.com/ru/company/newprolab/blog/352572/
    Так что, как говориться, "за ваши деньги - любой каприз" :-)
    Ответ написан
    Комментировать
  • Machine Learning и Big Data за три дня?

    @dmshar
    Все зависит от цели, для чего вам нужно за три дня "освоить" Machine Learning и Big Data.
    Если для того, что-бы выйти перед школьниками или домохозяйками и прочитать им получасовую лекцию на тему, что это такое и как это круто - то вот
    ai-news.ru/2018/11/kak_stat_ekspertom_po_mashinnom...
    и вот
    https://vas3k.ru/blog/machine_learning/
    И при этом молиться, что-бы слушатели не начали задавать вам вопросов.

    Если через три дня вы уезжаете на курорт и желаете оставшееся время потратить на самообразование, то, например, вот -
    https://datascientia.blog/page/1/ - (там целая серия, кажется 11 статей цикла Data Science Simplified) - по четыре статьи на день, в общем-то не много.
    И вообще-то такого научно-популярного добра в сети - полно. Ищите.

    Если это - не приведи Господи - какой-то вступительный экзамен, или собеседование - то лучше сразу сушить весла - сил, нервных клеток и времени (своего и собеседующего) хоть сэкономите.
    Ответ написан
    Комментировать
  • Лучшие системы AutoML на основе табличных данных?

    @dmshar
    Как-то весьма сумбурно. И как мне кажется - заход не с той стороны.
    Поясню.
    1. ML - это не PHP, Python или С++. Это в первую очередь знание и опыт применения методов - как вы пишете - "предугадывания" (в том числе, конечно). Поэтому опыт ваших программистов - это последнее, о чем следует заботится, если вас интересует "Ещё раз подчеркну — исследование"
    2. Ну предположим, найдете вы что-то вроде self-hosted AutoML Tables. Теперь читаем "AutoML Tables enables your entire team of data scientists, analysts, and developers to automatically build and deploy state-of-the-art machine learning models on structured data at massively increased speed and scale." Т.е. в первую очередь - специалисты по DS и аналитики! Они у вас есть? Если есть - то спросите их, с какими инструментами они хотят работать. Если нет, то.... чудес не бывает.
    3. Вот когда вы подберете DS-специалистов, когда они продумают, каким образом надо анализировать ваши данные, выполнят Feature engineering, подберут (выберут) хотя-бы класс методов, которые имеет смысл применять, проведут пилотное исследование данных, приблизительно оценят их перспективность - и вполне может ( и скорее всего так оно и будет) оказаться, что именно для вашей задачи возможностей AutoML не хватает, - вот тогда и надо будет говорить и о фермах видеокарт и об опыте конкретных девелоперов.
    И рекомендую в самом начале пути осознать, что AutoML - это вовсе не мясорубка - на вход кусок мяса, на выходе - фарш.
    4. А так, AutoML систем на рынке достаточно. Ну, на вскидку - H2O AutoML,Auto-WEKA, TransmogrifAI, Firefly и т.д. Вот тут последний (по времени) обзор
    https://www.datasciencecentral.com/profiles/blogs/...
    и неплохие ссылки для дальнейшего чтения.

    P.S. И, кстати, 5 ГБ логов - это весьма скромный объем, тем более для всякого типа AutoML.
    Ответ написан
    Комментировать
  • Как построить модель, когда обучающая выборка состоит из ежеминутных показаний?

    @dmshar
    В вашей задачи скорее всего показатель качества каким-то образом зависит от изменений параметров процесса в течении предыдущего часа (а может - не только одного, но и нескольких предыдущих часов - т.н. системы с задержкой. А может - и еще замысловатее - зависимость есть и от значения показателя качества в некоторые предыдущие периоды). Например - не было-ли выбросов, не происходили ли циклические изменения и пр. Таких показателей процесса - много. От тривиальных - среднего, среднеквадратичного отклонения, до более сложных - формы функции распределения значений, энтропии, наличия тренда и его характеристик и пр. И скорее всего именно от каких-то из этих показателей и/или их сочетаний, а так-же от взаимных изменений показателей наблюдаемых вами временных рядов между собой каким-то образом зависит то значение показателя качества, которое вы получаете ежечасно. Вот собственно это вам и надо выяснить. Т.е. анализируем процесс за час (это ваши входные данные) - делаем предсказание качества (это выходной результат вашей модели). Ну, можно, конечно, тупа попытаться запихнуть в какую нибудь сетку все своим сырые данные (N*60 точек за час, где N-количество ваших датчиков), но думаю толку от этого будет мало. Поэтому, очевидно, первый этап, который вам придется пройти - Feature engineering, т.е. конструирования параметров, по которым потом вы и будете обучать свою модель.
    Вот как-то так.
    Ответ написан
    Комментировать
  • Как можно определить класс по графику с помощью свёрточных нейронных сетей?

    @dmshar
    Типичная задача многомерной классификации. Решается либо любым классическим методом (и при двух входных параметрах и трех классах - наверняка это предпочтительно) из библиотеки Scikit-Learn к примеру.

    Ну, вот тут автор балуется с Keras:
    https://blog.stroganov.pro/классификация-нейросетью/
    Можете повторить подвиг, если очень хочется.

    А вот зачем сюда прикручивать сверточные сети, предназначенные вообще-то говоря для работы с визуализацией - не понимаю. Из-за моды?
    Ответ написан
    1 комментарий
  • Что рекомендуете почитать по компьютерному зрению?

    @dmshar
    Все зависит от того, что вы уже знаете.
    В зависимости от этого, попробуйте начать с этого
    https://www.asozykin.ru/deep_learning/2018/07/24/O...
    или этого
    https://www.intuit.ru/studies/courses/10621/1105/l...
    или этого
    openaccess.thecvf.com/content_cvpr_2018/papers/Zho...
    Ответ написан
    2 комментария
  • Хочу стать аналитиком данных / специалистом по машинному обучению. Куда двигаться дальше?

    @dmshar
    Не понятно, о какой "специализации от яндекса на coursera" идет речь. Если вот эта - https://ru.coursera.org/specializations/machine-le... - то там есть основы Machine Learning и Data Science. Что мешает вам попробовать устроиться и узнать, достаточно-ли ваших знаний для конкретной должности в конкретной компании? У каждого - свои требования, у одних выше, у других - ниже. Мы же не знаем, куда именно вы пойдете на собеседование.

    Но это, между прочим, никаким образом не влияет на ответ на вопрос - "Или необходимо прочесть доп. литературу по машинному обучению и прорешать определённый объём задач?". Во-первых, а вы что, не указанной "специализации" задач не решали? Ограничились только теорией? Во-вторых, потому что то, что вам рассказали на coursera - лишь малая часть того, что на самом деле представляет из себя DS. В-третьих - потому, что тренироваться, повышать свой уровень - и не только по книгам и учебным примерам - всегда полезно. Даже если устроитесь куда-то работать, это не освободит вас от необходимости саморазвития. Если, конечно, хотите остаться в теме, а не с трепетом ждать, что вас заменят на более квалифицированного специалиста.
    Ответ написан
  • Как создать структуру нейронной сети на плюсах для распознавания рукописных цифр?

    @dmshar
    Не могу понять от куда берутся веса? И как они распределяются по сети,
    Вообще-то , это основа того, что называется "нейронная сеть". Поиск весов и их "распределение по сети" - по сути, это задача оптимизации, решаемая одним из численных методов, как правило - градиентной оптимизацией.
    Если вы задаете такой вопрос - это значит, что вы еще совсем "не в теме". Начините с азбуки, потом - когда поймете как оно все работает - можно будет думать и о том, как оно применяется при "распознавании рукописных цифр", а уж потом - как его реализовать на С++. Хотя зачем? Именно на плюсах уже реализованы те-же Tensorflow и PyTorch. Хотите им составить конкуренцию?
    Ответ написан
    Комментировать
  • На чем пишут ИИ?

    @dmshar
    Ответ написан
    Комментировать
  • Есть ли какие-нибудь методы для борьбы с отсутствующими данными?

    @dmshar
    Что означает "Не пропущенные, а именно отсутствующие.". Правильно-ли я понимаю, что например, признак А для объекта Х - присутствует, а для объекта Y - нет? Ну тогда надо выбрать соответствующий метод решения. Например, для задачи классификации методы на основании деревьев решений не требуют совпадения набора признаков для всех объектов.
    Ответ написан
    1 комментарий
  • Как скачать и обрезать изображения?

    @dmshar
    Вообще-то вставлять в paint для того, что бы потом "обрезать и сохранить" вовсе не надо. Если, конечно, вы не собираетесь делать это вручную. Но если вы этого не понимаете, то я слабо представляю себе, как можно объяснить, как выполнить все остальное. Ну, посмотрите, например, как работать с OpenCV. Впрочем, если вы поведаете нам, где и что вы уже учили, то может и удастся немного "адаптировать" объяснение под вас..
    Ответ написан
    4 комментария
  • Как решаются подобные задачи и каким инструментом лучше?

    @dmshar
    Если вас интересует серьезное изучение темы, то даю наводку. Официально это называется "Теория многомерного шкалирования". Есть учебники (например - Толстова Ю.Н. Основы многомерного шкалирования - гууглится элементарно), предмет изучается в университете на соответствующих специальностях. Поскольку эта теория используется в основном гуманитариями (психологами, экономистами и пр), то изложение весьма простое.

    А вот если интересует подход на основе современной Data Science, то в принципе выше вам почти все правильно написали. Но я бы во-первых, попросил уточнить, вам действительно надо "процент соответствия лучшей" или все-таки задача стоит вновь поступающему описанию придать одну из пяти описанных ранговых(оценок)? Это несколько меняем алгоритм решения. Однако в любом случае, это точно "обучение с учителем. Почти классическая задача Классификации или Регрессии - зависимости от ответа на поставленный вопрос. В принципе - (почти) любой алгоритм подойдет. Если данных не очень много, и нет абсолютной уверенности в их непротиворечивости - то подход на основе деревьев. Тогда во-первых можно обойтись без нормализации (все равно количественных данных у вас аж одно), а во-вторых - использовать совершенно стандартные модули библиотеки scikit-learn.
    Но конечно, обучающих элементов чем больше - тем лучше.
    Ответ написан
    1 комментарий