Ответы пользователя по тегу Машинное обучение
  • Подходит ли ноутбук для машинного обучения?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Краткий ответ - да подходит. Голосуйте за мой ответ. Он - верный. Я гарантирую это.
    Ответ написан
    7 комментариев
  • Хочу заняться программирование БПЛА/ ИИ на БПЛА, с чего начать?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Не знаком с авиацией. Но предположу что современный БПЛА такой же сложный как и хорошая операционная система. В нем будет несколько уровней управления. Или несколько одновременно работающих и независимых систем. Одна из них будет - автопилотом. Это то что будет контролировать азимут и тангаж и высоту и прочее. Компенсировать ветры и воздушные ямки. Будет другая система связанная с полу-ручным управлением. Будет третья система связнная с тактической задачей. И еще много чего. То что автор называет ИИ - это может быть либо одна из этих систем, либо все вместе взятые. Все вместе - автор не потянет. Тут нужны специальные знания из авиации. Взять какую-то одну из систем (то что он называет ИИ) и просто начать ее программировать - это профанация с моей точки зрения. Или очень поверхностный подход. Я просто не верю в эффективность подобного метода когда речь идет о технике которая дорого стоит. Но потренироваться на симуляторах - вполне себе можно.
    Ответ написан
    Комментировать
  • Что лучше использовать ИИ или готовые библиотеки?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я ниразу не использовала ИИ и для меня будет это трудно, но есть билибиотеки для работы с аудио и переводами

    Конечно нужно брать готовые решения.

    ИИ - это некое общее понятие которое скорее всего будет программным API и его еще нужно долго конфигурировать. И без специальных знаний это конфигурирование будет невозможным.
    Ответ написан
    Комментировать
  • На чем лучше делать ML-движок/модель - на Python или C++? Где библиотек больше и т.п.?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Практически все т.н. "движки" пишуться на C/C++. Это связано с перформансом. Но к ним делаются библиотеки доступа из других языков. Например Python, Java, e.t.c.

    Но сам вопрос поставлен очень безграмотно. Много гонора и мало представления о предметной области в целом. Автору я очень сильно советую найти настоящего специалиста ML и поговорить с ним.

    Меньше амбиций и гонора. Больше конструктивных вопросов. Что делаем? Какой объем обучающей выборки? Какие факторы? Какого класса обучение делается. Классификация? Прогнозирование? Рекомендательные системы?
    Ответ написан
  • Какой курс по ML выбрать?

    mayton2019
    @mayton2019
    Bigdata Engineer
    ML в современном понимании этого слова не имеет отношения к

    "начни готовить мне кофе через пять минут десять секунд" он поймет (выдаст, например, json)
    Ответ написан
  • Какой самый легкий путь для создания модели с помощью машинного обучения?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Дело в том что рынок "машинного обучения" сильно перегрет. Каждый newcomer решает любую задачу маш-обучем даже если ему надо сложить 2 + 2. Я не шучу это действительно так. Доходит до смешного. Там где нужен фильтр низкой частоты или расчет арифметического среднего все пытаются втащить методы которые на два порядка сложнее и энергозатратнее.

    По поводу вопроса. Допустим ты играешь в PacMan (желтый колобок который кушает белые точки на черном фоне) и ты хочешь просто найти пакмана - то тебе достаточно к примеру уменьшить размер экрана в 32 раза и тогда колобок станет размером в 1 пиксел (я предполагаю что он был размером 32 на 32). При усреднении цвета - брать max. Между черным и желтым - всегда выбирать желтый. Далее после того как колобок найден на мелком поле - и известны его координаты - можно двигаться в обратную сторону увеличивая масштаб. И за 5 итераций найти точные координаты ПакМана. В моём алгоритме вобщем-то нет никакого opencv. И я утверждаю что мой алгоритм менее ресурсоёмок чем все прочие подходы.

    Впрочем это - просто идея. Ее можно бесконечно упрощать или улучшать. Возможен кейс когда враги скушали пак-мана и он будет плохо распознан моим методом. Вобщем есть огромное пространство для фантазии и алгоримизации без машинного обучения.
    Ответ написан
    2 комментария
  • Какие книги по машинному обучению стоит изучить?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я бы очень хотел чтобы в книге разбирались конкретные библиотеки (tensorflow например), а не просто голая теория.

    Тут что-то не то. Вопрос не так поставлен. Ведь ТензорФлоу это чертов API и по сути тоже теория. Твой вопрос наверное звучит так что нужны какие-то практические задачи с решениями. Верно?
    Ответ написан
    1 комментарий
  • Что нужно чтобы написать ИИ который будет обучаться и угадывать которое число ты выберешь из 3 вариантов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Это наверное к ИИ не имеет отношения. Просто статистика. Марковские сети. И наверное теория игр.
    Все это было создано задолго до термина ИИ в современном его понимании.
    Ответ написан
  • Что такое data locality?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Насколько я помню - это использовалось в Hadoop/BigData. Это когда вам надо посчитать допустим среднее значение поля по тера-байтному файлу - вы не скачиваете все данные к себе а вы транслируете логику туда, ближе к нодам-воркерам и они уже расчитывают среднее значение локально в своей сверх-быстрой сети и уже вам отдают результат.

    Во фреймворке Spark это скрипт spark-submit. И он как раз это и делает. Передает jar файл с логикой (или python-файл) на узел-координатор.
    Ответ написан
    Комментировать
  • Как применить машинное обучение для медицинских данных (пример данных под катом)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Очень странно конечно ставить такую задачу как "наковырять хоть что нибудь". Как из говна собрать сливки. Прошу прощения за мой французский.

    По делу.

    Мне кажется что в таком виде как написано
    В последующем посещала

    данные не годятся для обучения.

    А чтобы они годились - нужно сеть и вручную проанализировать какие признаки (features вообще у нас есть).
    Например если есть температура - это вещественное значение. Если есть болезнь - и всего возможно 300 болезней то мы заводим 300 полей вещественного типа и заполняем их 1.0 если выявлен признак. А для всех других 299 ставим 0.0.

    Да именно так. Системы машинного обучения не работают со словами. Все эти классификации, регрессии воспринимают только вещественные числа. Если вы вдруг (!) где-то видели систему которая что-то извлекает из текста - то не верьте. Вас обманывают. Текст все равно проходит векторизацию чтобы свести задачу о операциям над векторами величин.

    По поводу умного авто-дополнения я вообще не могу ничего сказать. Непонятно.

    Приведите пример хотя-бы на эти данных.
    Ответ написан
  • Как войти в "ИИ"?

    mayton2019
    @mayton2019
    Bigdata Engineer
    У меня - очень угнетающее впечатление от практики применений библиотек. Ребята пытаются обучать нейросети даже не зная основ мат-статистики. У них сеть расходится. Переобучается. Выдает лажу на выходе которую они берут за чистую монету. Потом приходят в этот же форум и спрашивают почему opencv или tensor flow "глючит". Они даже вопрос не могут задать потому что не владеют терминологией.

    При этом я говорю без ревности там или обиды от конкуренции. Нету у нас конкуренции. У меня задачи другие. Мне за науку обидно. Будто в физ-лабораторию где коллайдеры и квантовые вычислители забежали мартышки и начали нажимать вообще на все-все кнопки на которые только можно. Спасибо языку Python и фреймворкам! Боже мой какое счастье!!

    Это я не в упрёк автору. Просто зачем пополнять зоопарк? Берите консервативную отрасль. Не из buzzwords а из современного и актуального завтра. Биохимия например. Нужная наука. И it там будет очень нужно.
    Ответ написан
    Комментировать
  • Какие есть пути объединения Blockchain и AI?

    mayton2019
    @mayton2019
    Bigdata Engineer
    В настоящее время таких путей нет. Так как нет мотивации майнеров к тому чтобы они тратили свои мегафлопы на задачи ИИ. Но если создать свою криптовалюту на основе POW и вместо перебора разрядной сетки SHA256 просто задавать мелкие задачки из области ИИ тогда мы получим полезный эффект.

    В чем здесь сложности я вижу. Сложно придумать алгоритм генерирующий такие задачки на ходу и подходящий под контракт функции POW. Ну... моей фантазии уже на это не хватает. Слишком много ограничений тут.
    Ответ написан
    Комментировать
  • Насколько C# подходит для создания ИИ и робототехники?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Только начинающие разработчики считают что 1 язык - на всю жизнь. В реальности сложные проекты - это всегда слоистый торт из разных языков и технологий. Например если вы решили работать в DataScience - то вам нужен язык Python который под капотом вызывает C++ который в свою очередь может вызывать OpenMP на сях для высокрой производительности. И при этом само приложение Python запускается из конвейера например написанного на Groovy и т.д. Стек - длинный. Каждое звено стека обосновано. Стоит на своём месте. Так какой смысл говорить об конкретном языке?

    Лучше говорить о самой проблеме. Какая проблема создания ИИ? Вот этот вопрос реально интересен.
    Ответ написан
  • Как нейросеть научить понимать текст?

    mayton2019
    @mayton2019
    Bigdata Engineer
    После кластеризации мы просто получим сгруппированный текст. И никакого понимания текста и ответов на вопросы там не будет.

    Вообще - лучше привести пример того что хочет автор. Что значит ответить на вопрос. Например:

    Я : Где живут пингвины?
    Нейросеть : В антарктиде.

    Но чтобы нейросеть сделала какой-то inference из текста - нужно сделать что-то большее чем кластеризация.
    Ответ написан
    Комментировать
  • Как изучать машинное обучение?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Машинное обучение это вообще не про Python. Это больше к мат-статистике и обработке больших данных.
    Задачи - классификация, регрессия и кластеризация e.t.c.. Алгоритмов и названий очень много. Некоторые из них могут повторяться в вариациях или иметь неточные русские переводы.

    Фреймворк Apache Spark имеет следующий классификатор алгоритмов: https://spark.apache.org/docs/latest/ml-guide.html
    Ignite - вот такой : https://ignite.apache.org/docs/latest/machine-lear...

    По поводу Python или Scala. Знающие маш-обучение таких вопросов вообще не задают. Для специалистов язык - вообще не имеет значения. Язык в данном контексте это как приложение калькулятор или spreadsheet. Это вспомогательный инструмент. Собственно эта наука вообще не про программирование. А про наблюдение глазами за процессом обучения и корректировку мета-параметров.

    Тоесть инженер по маш-обучению не интересуется языком. Его глубже интересуют какой метод. И почему та или иная модель подходит а другая не подходит. Почему коэфф. детерминации такой и почему такая дисперсия. Почему факторы такие-то и такие-то и какие между ними существуют взаимо-влияния.

    На собеседовании тоже будут спрашивать про опыт. Что делал. Какие методы знаешь. Язык - опционален. Могут спросить - но будут предполагать что 99% ты выучишь новый язык если надо.
    Ответ написан
    Комментировать
  • Как улучшить мою сверточную нейронную сеть?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Возможно топик уже неактуален. Но я спрошу.

    В наше время все хотят затащить в проект НС потому что это стильно и модно и кроме того наличие тега НС очень сильно может впечатлить заказчика. Но может быть настало время переосмысления НС и рассмотрения старых добрых проверенных методов?

    Почему-бы не попробовать авто-корреляционную функцию. И если она будет лучше и проще - разве это не будет решением задачи?
    Ответ написан
    Комментировать
  • Простой API машинного обучения?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Не все что считается мат-статистикой надо обзывать машинным обучением. Первые два пункта - вообще не требуют ML.

    Третий - настольно сложен и непонятен в своей постановке что его надо просто очень долго обсуждать. Что на входе и что на выходе.

    Чтоб не было как в анекдоте про "штурман прибор 100"...
    Ответ написан
  • Как обойти распознавание лица на фото?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Тема интересная. Находится на стыке развития систем распознающих образы и обще-человеческой медицины.

    Защитить - скорее всего можно. Только после этого фото станет недоступным для человеческого восприятия. Простые фильтры дисторсии (distort), бочка, подушка, кручение (twirl). Просто какие-то варпы, которые изменяют пропорции лица, например вытягивают глаза и прочее - могут сломать систему поисков по совпадению.

    Но если вы решили играть в кошки-мышки с государством то ничего у вас не выйдет. Вас все равно поймают. А дистортнутые фотографии в вашей соц-сети просто будут вызывать удивление и подозрение.

    Может если вы не хотите чтоб вас искали - то лучше наверное вообще ничего не публиковать.

    Поэтому диклеймер - интерес этого топика - исключительно академический.
    Ответ написан
    Комментировать
  • Какую задачу поставить для диплома по нейронным сетям?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Можно поискать на биржах фриланса. Там - самые интересные и 100% актуальные задания. Актуальные настолько что люди даже готовы за них платить.

    Еще замечание. Нейронные сети - это уже достаточно размытое понятие. Лучше конкретизировать. Сети Хопфилда. Гроссберга. Свёрточные и т.д. И по области применения. Обработка звука. Статических картинок. Или видосов.
    Ответ написан
    Комментировать
  • Возможно ли применить машинное обучение или нейронные сети в автоматизации тестирования вебсайтов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Как инструмент НС подходят везде. НС - это такая себе мясорубка куда кидают векторы и на выходе что-то получают. Либо классификацию. Либо новый вектор.

    Но мне кажется что слабое место этой задачи - это практическая невозможность обучения без учителя.
    Вам все равно необходимо что-то показывать этой сети и объяснять.

    Еще слабое место этой задачи - это формализация входа и выхода. Что вы подаете на вход? Классическая сетка
    оперирует с непрерывными величинами. А у вас что? На вход html? На выходе XPath?

    Может НС - это все таки оверинжинеринг?
    Ответ написан
    3 комментария