Ответы пользователя dmshar по тегу «Машинное обучение» — Хабр Q&A

Задать вопрос

Ответы пользователя по тегу Машинное обучение

Достаточно ли материалов KhanAcademy по математике чтоб было возможно учить MachineLearning?

dmshar @dmshar

Ну, задаем вопрос в Гуугл, получаем кучу исчерпывающих ответов, ознакамливаемся, принимаем к действию, начинаем изучать.
https://habr.com/ru/company/plarium/blog/442772/
https://habr.com/ru/post/432670/
ai-news.ru/2018/12/vazhnye_aspekty_matematiki_v_na...
https://www.datasciencecentral.com/profiles/blogs/...

За одно решаем, достаточно-ли того что преподают на Khana, что-бы покрыть список рекомендованных разделов и тем.
Удачи.

Ответ написан более трёх лет назад

Комментировать

Комментировать
AI для карточной игры?

dmshar @dmshar

Если и вправду "Но в ML я полный null или nil. " то ответ на вопрос " с чего начать" самоочевиден. Начните с начала, с изучения ML. С азов.

Что почитать, что выбрать? - этот вопрос задавался 284 раза даже на Тостере. Я понимаю, самому искать, читать, анализировать - лень. Хочется, что-бы кто-то это сделал за нас. Ну ладно, - вот тут:
https://tproger.ru/curriculum/data-scientist-curri...
www.cyberforum.ru/ai/thread2010374.html#post10584290
https://proglib.io/p/data-science-faq/
ai-news.ru/2018/10/podborka_resursov_po_mashinnomu...
есть УЙМА информации про то и как начать, и в каком порядке изучать, и какие книги-сайты-видео смотреть. Выбирайте в зависимости от уровня своей подготовки, вкусов и настроения.

Наверняка у них есть что-то ML. - у них, это у кого? И что именно "есть"? Да на Azure есть "Azure Machine Learning service". Но что вы хотите там найти? И как собираетесь этим пользоваться, не понимая даже, что вам надо?

Возможно, кто-то уже этим пользовался - Чем, "Azure"? Да, пользовались. Думаю, десятки тысяч людей. И что? Как эта информация поможет вам в решении вашей задачи?

В общем, непонятно, что конкретно вы ожидаете услышать в рамках ответе на ваш вопрос.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Собеседник на нейросети или как собрать велосипед?

dmshar @dmshar

А может, если пока не умеете самостоятельно произвести Google-поиск, создавать чат бота рановато? Ведь даже имея какие-то подсказки, возникнут десятки вопросы, ответы на которые придется спрашивать у Гуугла? Или опять придете сюда?
Ну ладно, вот первая десятка ответов, который дал поиск. Для пользователей с разным уровнем исходной подготовки. Он вам по каким-то причинам не подходит?
https://serpstat.com/ru/blog/kak-sozdat-chat-bota/
https://shcherbakovs.com/stepbystep-plan-to-create...
https://habr.com/ru/post/311008/
https://vc.ru/services/57488-14-servisov-dlya-sozd...
https://ain.ua/2017/03/23/5-servisov-kotorye-pozvo...
https://ru.wix.com/russianhtml/leader-ru?utm_sourc...
https://neurohive.io/ru/tutorial/kak-sozdat-chat-b...
https://proglib.io/p/chat-bots-intro/
https://habr.com/ru/post/317732/
https://habr.com/ru/post/340190/

Ответ написан более трёх лет назад

2 комментария

2 комментария
Machine learning / Data science / Data analytics?

dmshar @dmshar

Если и вправду "В этом я полный ноль," - то путь у вас один единственный. Нанять специалиста (специалистов!!!) заплатить денег и поручить им решить вашу задачу.
Потому что путь "Хочу всё свободное время потратить на изучение данной предметной области" - он похвальный. Но тупиковый. Через примерно 500 часов изучения (в реалии, думаю, что в несколько раз больше, т.к. судя по стилю вопросу, вы не только в ML полный ноль, но и в разработке ПО, анализе систем и еще в паре-тройке направлений, который придется задействовать - не даром я написал "специалистов" во множественном числе) - так вот, после того, как вы найдете это количество "свободного времени" и полностью потратите его на получение соответствующих знаний, думаю, и ваша задача потеряет актуальность и вы потеряете к ней интерес.

И да, ваша задача к ML имеет очень касательное отношение, реально потребуются во многом другие знания и подходы.

P.S. Ну почему все вдруг решили, что изучение ML самостоятельно, в свободное время и на дому это проще, чем такое-же изучение, например, геофизики или хирургии???

Ответ написан более трёх лет назад

Комментировать

Комментировать
Что узнать, за счет чего растет качество модели?

dmshar @dmshar

Сначала надо определиться, а что-же вы понимаете под термином "сложность модели"?
Потому что "сложности" , действительно, бывают разные - как минимум "структурная" и "вычислительная". Но походе, вы их малость перепутали.
Возьмем ваш пример с Random Forest - увеличение количества сплитов не есть увеличение структурной сложности модели. Точно так-же, как и добавление новой переменной к нелинейной регрессионной модели заданного порядка не ведет к увеличению структурной сложности модели. А вот изменение - например - квадратичной модели на кубическую - ведет к изменению и структурной сложности и - как следствие - вычислительной.

Eсли это себе ясно представить, то становиться понятным, что введение нового признака в рамках одной модели - есть действие, результат которого влияет на "качество модели" (кстати, тоже требует определения, но предположим, что вы имеете ввиду "точность"). И структура тут вообще ни при чем. А изменение структуры модели с квадратичной на кубическую может привести к аналогичному увеличению точности модели даже без добавления новых переменных.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Путь data science. Как будет правильнее?

dmshar @dmshar

1."опыт написания фронта, опыт it рекрутера." - накакого отношения в Data Science. От слова "совсем".
2. "Учился в техническом вузе по инженерной специальности, но спустя год осознал, что сама эта специальность не для меня." - т.е. недоучился? Кстати, если нет склонности к инженерным специальностям, откуда уверенность, что есть склонность к "Data Science"? Замечу, "хотелось бы стать" и "имею склонность к" - это очень разные вещи.
3. "Математику знаю и понимаю хорошо" - откуда эта уверенность? Из школы? Или из универа в котором недоучились? Какие курсы математики все-таки "дослушали", какие успехи?
4. "невнимательность при вычислениях." - Вообще-то говоря, DS - это не вычисления. Вернее, вычисление сегодня выполняют хорошо известные реализации методов в разных пакетах. DS - это прежде всего умение разобраться в методах, понять их суть, ограничения, особенности и пр. , умение отобразить данные предметной области на абстрактные математические методы а потом проинтерпретировать полученные результаты в терминах предметной области.
5. "Хочу попробовать развиваться в нем. " - хочется - развивайся. В чем проблема? Получить благословение сообщества? Зачем? Если человеку что-то действительно чего-то хочется, то он берет и делает это. Иначе это выглядит как поиск оправдания того, почему "мне хочется, но я этим заниматься не буду".
6. "Не помешает ли отсутствие профильного образования?" - помешает. Ну и ? Если хочется развиваться в этом направлении, то "профильное образование" все равно придется получать. Любым способом - в универе, на курсах, самостоятельно. Но получать придется. А как без него? Не обижайтесь, но DS - это не рекрутинг. Это гораздо серьезнее.
7. "Не помешает ли особенности моего импульсивного порой мышления?" - Знаю спецов в DS с очень разным типом мышления. Еще раз вынужден повторить - не ищите отмазки "почему не надо этого делать".
8. "Английский на неплохом уровне, но тяжко будет воспринимать англо-техническую речь" - на первом - а возможно и на всех последующих - этапах говорить на английском вам не придется, это точно. Воспринимать - ну разве что решите заниматься через запись на англоязычные обучающие курсы. Тут уж как захотите - в инете полно материалов - курсов, книг, блогов, форумов - и на русском, а в университете вряд-ли придется учится на английском. А вот чтение и понимание написанного английского - это таки обязательное условия вхождения в эту специальность. Иначе перспективы ваши в ней будут не интересней перспектив в рекрутинге.
9. "А с чего, собственно, начать? Есть ли какие-то рекомендации по книгам/курсам. " - вот этого - навалом, даже на этом форуме. Настолько навалом, что даже не хочется в 254 раз повторять одно и то-же. Так что ищите, найдете. Надеюсь, Гууглом пользоваться умеете. Или хотя-бы просто пройтись по "Похожим вопросам" внизу. Но вот пользуясь случаем хочу еще раз подчеркнуть - основное умение специалиста по Data Science - это умение и навыки самостоятельного поиска, анализа и инетрпретации информации. Благо источники ее сегодня доступны для любого, у кого есть доступ к интернет.
Удачи.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Где найти людей которые занимаются разметкой данных для искусственного интеллекта?

dmshar @dmshar

Есть такие сервисы, где исполняют любое желание по сбору данных?)
Вот, не группа, но целая фирма:
https://vc.ru/tribuna/63360-handl-servis-razmetki-...
Ну, а если знаете китайский :-) - то:
https://neurohive.io/ru/novosti/fabriki-razmetri-d...
А тут небольшой обзор:
https://habr.com/ru/company/newprolab/blog/352572/
Так что, как говориться, "за ваши деньги - любой каприз" :-)

Ответ написан более трёх лет назад

Комментировать

Комментировать
Machine Learning и Big Data за три дня?

dmshar @dmshar

Все зависит от цели, для чего вам нужно за три дня "освоить" Machine Learning и Big Data.
Если для того, что-бы выйти перед школьниками или домохозяйками и прочитать им получасовую лекцию на тему, что это такое и как это круто - то вот
ai-news.ru/2018/11/kak_stat_ekspertom_po_mashinnom...
и вот
https://vas3k.ru/blog/machine_learning/
И при этом молиться, что-бы слушатели не начали задавать вам вопросов.

Если через три дня вы уезжаете на курорт и желаете оставшееся время потратить на самообразование, то, например, вот -
https://datascientia.blog/page/1/ - (там целая серия, кажется 11 статей цикла Data Science Simplified) - по четыре статьи на день, в общем-то не много.
И вообще-то такого научно-популярного добра в сети - полно. Ищите.

Если это - не приведи Господи - какой-то вступительный экзамен, или собеседование - то лучше сразу сушить весла - сил, нервных клеток и времени (своего и собеседующего) хоть сэкономите.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Лучшие системы AutoML на основе табличных данных?

dmshar @dmshar

Как-то весьма сумбурно. И как мне кажется - заход не с той стороны.
Поясню.
1. ML - это не PHP, Python или С++. Это в первую очередь знание и опыт применения методов - как вы пишете - "предугадывания" (в том числе, конечно). Поэтому опыт ваших программистов - это последнее, о чем следует заботится, если вас интересует "Ещё раз подчеркну — исследование"
2. Ну предположим, найдете вы что-то вроде self-hosted AutoML Tables. Теперь читаем "AutoML Tables enables your entire team of data scientists, analysts, and developers to automatically build and deploy state-of-the-art machine learning models on structured data at massively increased speed and scale." Т.е. в первую очередь - специалисты по DS и аналитики! Они у вас есть? Если есть - то спросите их, с какими инструментами они хотят работать. Если нет, то.... чудес не бывает.
3. Вот когда вы подберете DS-специалистов, когда они продумают, каким образом надо анализировать ваши данные, выполнят Feature engineering, подберут (выберут) хотя-бы класс методов, которые имеет смысл применять, проведут пилотное исследование данных, приблизительно оценят их перспективность - и вполне может ( и скорее всего так оно и будет) оказаться, что именно для вашей задачи возможностей AutoML не хватает, - вот тогда и надо будет говорить и о фермах видеокарт и об опыте конкретных девелоперов.
И рекомендую в самом начале пути осознать, что AutoML - это вовсе не мясорубка - на вход кусок мяса, на выходе - фарш.
4. А так, AutoML систем на рынке достаточно. Ну, на вскидку - H2O AutoML,Auto-WEKA, TransmogrifAI, Firefly и т.д. Вот тут последний (по времени) обзор
https://www.datasciencecentral.com/profiles/blogs/...
и неплохие ссылки для дальнейшего чтения.

P.S. И, кстати, 5 ГБ логов - это весьма скромный объем, тем более для всякого типа AutoML.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как построить модель, когда обучающая выборка состоит из ежеминутных показаний?

dmshar @dmshar

В вашей задачи скорее всего показатель качества каким-то образом зависит от изменений параметров процесса в течении предыдущего часа (а может - не только одного, но и нескольких предыдущих часов - т.н. системы с задержкой. А может - и еще замысловатее - зависимость есть и от значения показателя качества в некоторые предыдущие периоды). Например - не было-ли выбросов, не происходили ли циклические изменения и пр. Таких показателей процесса - много. От тривиальных - среднего, среднеквадратичного отклонения, до более сложных - формы функции распределения значений, энтропии, наличия тренда и его характеристик и пр. И скорее всего именно от каких-то из этих показателей и/или их сочетаний, а так-же от взаимных изменений показателей наблюдаемых вами временных рядов между собой каким-то образом зависит то значение показателя качества, которое вы получаете ежечасно. Вот собственно это вам и надо выяснить. Т.е. анализируем процесс за час (это ваши входные данные) - делаем предсказание качества (это выходной результат вашей модели). Ну, можно, конечно, тупа попытаться запихнуть в какую нибудь сетку все своим сырые данные (N*60 точек за час, где N-количество ваших датчиков), но думаю толку от этого будет мало. Поэтому, очевидно, первый этап, который вам придется пройти - Feature engineering, т.е. конструирования параметров, по которым потом вы и будете обучать свою модель.
Вот как-то так.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как учить математику для машинного обучения?

dmshar @dmshar

Вопрос неоднократно обсуждался на Toster.
Ну, например:
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
Как развить мат. аппарат до минимального уровня для машинного обучения и дата саенс?
Список литературы(или курсов) МАТЕМАТИКИ для Data Scientist?
Математика для Теории вероятностей и нейронных сетех?
Как изучать математику для ИИ и МО? И что именно изучать?
Как максимально быстро получить базовые знания в части мат.анализа, работы с данными, построения моделей?
Удачи!

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как можно определить класс по графику с помощью свёрточных нейронных сетей?

dmshar @dmshar

Типичная задача многомерной классификации. Решается либо любым классическим методом (и при двух входных параметрах и трех классах - наверняка это предпочтительно) из библиотеки Scikit-Learn к примеру.

Ну, вот тут автор балуется с Keras:
https://blog.stroganov.pro/классификация-нейросетью/
Можете повторить подвиг, если очень хочется.

А вот зачем сюда прикручивать сверточные сети, предназначенные вообще-то говоря для работы с визуализацией - не понимаю. Из-за моды?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Что рекомендуете почитать по компьютерному зрению?

dmshar @dmshar

Все зависит от того, что вы уже знаете.
В зависимости от этого, попробуйте начать с этого
https://www.asozykin.ru/deep_learning/2018/07/24/O...
или этого
https://www.intuit.ru/studies/courses/10621/1105/l...
или этого
openaccess.thecvf.com/content_cvpr_2018/papers/Zho...

Ответ написан более трёх лет назад

2 комментария

2 комментария
Хочу стать аналитиком данных / специалистом по машинному обучению. Куда двигаться дальше?

dmshar @dmshar

Не понятно, о какой "специализации от яндекса на coursera" идет речь. Если вот эта - https://ru.coursera.org/specializations/machine-le... - то там есть основы Machine Learning и Data Science. Что мешает вам попробовать устроиться и узнать, достаточно-ли ваших знаний для конкретной должности в конкретной компании? У каждого - свои требования, у одних выше, у других - ниже. Мы же не знаем, куда именно вы пойдете на собеседование.

Но это, между прочим, никаким образом не влияет на ответ на вопрос - "Или необходимо прочесть доп. литературу по машинному обучению и прорешать определённый объём задач?". Во-первых, а вы что, не указанной "специализации" задач не решали? Ограничились только теорией? Во-вторых, потому что то, что вам рассказали на coursera - лишь малая часть того, что на самом деле представляет из себя DS. В-третьих - потому, что тренироваться, повышать свой уровень - и не только по книгам и учебным примерам - всегда полезно. Даже если устроитесь куда-то работать, это не освободит вас от необходимости саморазвития. Если, конечно, хотите остаться в теме, а не с трепетом ждать, что вас заменят на более квалифицированного специалиста.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Как создать структуру нейронной сети на плюсах для распознавания рукописных цифр?

dmshar @dmshar

Не могу понять от куда берутся веса? И как они распределяются по сети,
Вообще-то , это основа того, что называется "нейронная сеть". Поиск весов и их "распределение по сети" - по сути, это задача оптимизации, решаемая одним из численных методов, как правило - градиентной оптимизацией.
Если вы задаете такой вопрос - это значит, что вы еще совсем "не в теме". Начините с азбуки, потом - когда поймете как оно все работает - можно будет думать и о том, как оно применяется при "распознавании рукописных цифр", а уж потом - как его реализовать на С++. Хотя зачем? Именно на плюсах уже реализованы те-же Tensorflow и PyTorch. Хотите им составить конкуренцию?

Ответ написан более трёх лет назад

Комментировать

Комментировать
На чем пишут ИИ?

dmshar @dmshar

Выбирай сам :-)
https://www.kdnuggets.com/2018/05/poll-tools-analy...

Ответ написан более трёх лет назад

Комментировать

Комментировать
Кто-нибудь знает какие-нибудь материалы, по которым можно быстро повторить методы оптимизации?

dmshar @dmshar

А в чем, собственно, проблема?

tc.nsu.ru/uploads/met-opt-pr-zad.pdf
elar.urfu.ru/bitstream/10995/48965/1/978-5-7996-20...
https://www.youtube.com/watch?v=C3mchBUey04
www.math.nsc.ru/LBRT/k5/mo.html
www.apmath.spbu.ru/ru/staff/abbasov_m_e/files/MO1.pdf
window.edu.ru/resource/650/75650/files/OPTIMISATION.pdf
..........

Ответ написан более трёх лет назад

Комментировать

Комментировать
Есть ли какие-нибудь методы для борьбы с отсутствующими данными?

dmshar @dmshar

Что означает "Не пропущенные, а именно отсутствующие.". Правильно-ли я понимаю, что например, признак А для объекта Х - присутствует, а для объекта Y - нет? Ну тогда надо выбрать соответствующий метод решения. Например, для задачи классификации методы на основании деревьев решений не требуют совпадения набора признаков для всех объектов.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как скачать и обрезать изображения?

dmshar @dmshar

Вообще-то вставлять в paint для того, что бы потом "обрезать и сохранить" вовсе не надо. Если, конечно, вы не собираетесь делать это вручную. Но если вы этого не понимаете, то я слабо представляю себе, как можно объяснить, как выполнить все остальное. Ну, посмотрите, например, как работать с OpenCV. Впрочем, если вы поведаете нам, где и что вы уже учили, то может и удастся немного "адаптировать" объяснение под вас..

Ответ написан более трёх лет назад

4 комментария

4 комментария
Как решаются подобные задачи и каким инструментом лучше?

dmshar @dmshar

Если вас интересует серьезное изучение темы, то даю наводку. Официально это называется "Теория многомерного шкалирования". Есть учебники (например - Толстова Ю.Н. Основы многомерного шкалирования - гууглится элементарно), предмет изучается в университете на соответствующих специальностях. Поскольку эта теория используется в основном гуманитариями (психологами, экономистами и пр), то изложение весьма простое.

А вот если интересует подход на основе современной Data Science, то в принципе выше вам почти все правильно написали. Но я бы во-первых, попросил уточнить, вам действительно надо "процент соответствия лучшей" или все-таки задача стоит вновь поступающему описанию придать одну из пяти описанных ранговых(оценок)? Это несколько меняем алгоритм решения. Однако в любом случае, это точно "обучение с учителем. Почти классическая задача Классификации или Регрессии - зависимости от ответа на поставленный вопрос. В принципе - (почти) любой алгоритм подойдет. Если данных не очень много, и нет абсолютной уверенности в их непротиворечивости - то подход на основе деревьев. Тогда во-первых можно обойтись без нормализации (все равно количественных данных у вас аж одно), а во-вторых - использовать совершенно стандартные модули библиотеки scikit-learn.
Но конечно, обучающих элементов чем больше - тем лучше.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Самые активные сегодня

alexalexes
- 5 ответов
- 0 вопросов
Vindicar
- 4 ответа
- 0 вопросов
Dmitry Roo
- 3 ответа
- 0 вопросов
#
- 3 ответа
- 0 вопросов
Wataru
- 3 ответа
- 0 вопросов
IPMI
- 0 ответов
- 2 вопроса