• Есть ли библиотеки для автоматической генерации нейросетей?

    @dmshar
    Ну, начнем с TensorFlow. Все что упомянуто, можно указывать.
    Ответ написан
    Комментировать
  • Код или математика?

    @dmshar
    Давайте все таки строго формализуем вопрос.
    "в коде обучения нейронной сети или математической модели этого самого обучения" - как то совсем нечетко. Предположим, вы имели ввиду
    "математическая модель обучения" =="алгоритм обучения сети"
    "код обучения" == "программная реализация этого самого алгоритма".
    Тогда задача получает строгую формулировку: "Мы запрограммировали некоторый процесс обучения. Результат не такой, как мы ожидаем. Где ошибка - в алгоритме или в коде".
    И если это так, то в такой постановке задача хоть и не может быть решена с абсолютной точностью, но понятно что надо делать, что-бы дать ответ. По большому счету, она теперь ничем не отличается от обычной задачи, решаемой на этапе тестирования при разработке любого программного продукта - от игрушек до веб-сайтов.

    Вариантов решения два.

    Аналитический:
    1. Глубинный анализ алгоритма (т.е. еще раз изучаем, что написано в той книжке, откуда мы его взяли, ведь и в книжках бывают ошибки).
    1. Традиционный код-ревью.
    (Ну, как тут уже пошутили - можно взвалить обе эти задачи на преподавателя :-). ).

    Экспериментальный:
    1. Находим и четко записываем алгоритм.
    2. Даем его запрограммировать двум, трем.... чем больше-тем лучше... программистам. Получаем множество реализаций одного и того-же алгоритма.
    3. Прогоняем процесс обучения сети через каждую реализацию. Сравниваем результаты с ожидаемыми.
    4. Если реализации дали результаты, отличные от ожидаемых, но совпадающие между собой - ищи ошибки в алгоритме. Если реализации дали результаты, отличные от ожидаемых, но различные между собой - ищи ошибки в коде.

    Но простых, "книжных" решений этой задачи - нет.
    Ответ написан
    Комментировать
  • Что не так с моим кодом python?

    @dmshar
    При попытке четвертого захода в функцию dot первым параметром передается число (конкретно -"class 'float" - 0.5833820394550312) , а не список.
    Ответ написан
  • Как составлять графики в реальном времени?

    @dmshar
    Любое средство, которое вам это позволит делать. Ну например, если без изысков, и если не хочется почему-то использовать специализированные средства, то связка Python+модуль Matplotlib вполне подойдет.
    Ответ написан
    Комментировать
  • Как грамотно подойти к распознаванию объектов со снимков?

    @dmshar
    Копать в сторону "распознавание визуальных образов". Пожалуй, одна из немногих областей, где нейронная сеть - самое подходящее средство решения задачи. Краткий алгоритм : берешь тысячИ снимков на которых есть и примерно столько-же - не которых нет объектов нужного класса (здания), обучаешь нейронную сеть, получаешь сеть, способную с некоторой вероятностью (зависит от многих факторов - качества обучающей выборки, подобранного класса сети включая количество слоев и типв связей между ними, правильности проведения процесса обучения и т.д.) распознать здание по снимку. Начинать надо - с теории. В большинстве книг по нейронным сетям есть описание -или по крайней мере подробный roadmap - решения данного класса задач. Инструмент (как софт, так и платформа) выбирается исходя из возможностей заказчика.
    Удачи.
    Ответ написан
    Комментировать
  • Какой тип нейронной сети выбрать?

    @dmshar
    Есть такой раздел Data Science, называется "Обнаружение аномалий" (Anomaly Detection). Внутри этого раздела есть подразделы и с поиском стационарных аномалий, и с поиском аномалий в временных рядах, и анализ информации в потоке и т.д. Ставится задача и наибыстрейшего обнаружения аномалий.
    Применяются в этом разделе и нейронные сети, но не только. Но в любом случае - копать надо в этом направлении. Благо и литературы и интернет ресурсов более чем достаточно.
    Ответ написан
    1 комментарий
  • Как оценить отклонение величины от ожидаемого значения?

    @dmshar
    Основная идея - написана выше. От себя дополню - по двум опытам (две точки в каждой из выборок) никакие результаты не будут статистически значимы. Человеческим языком это означает, что корректного вывода по такому набору малому данных сделать невозможно.
    Ответ написан
    Комментировать
  • Как применить блокчейн?

    @dmshar
    Болкчейн - это не криптовалюта. (Хотя это модно, а многие просто смешивают эти две вещи). Что-бы не было сомнений (у рецензента :-) ), я бы не стал смотреть в сторону чего-бы то ни было, связанного с финансами. Я бы в качестве применения взял бы, ну например, вопросы связанные с хранением документов, договоров, историй болезни или - еще более актуальный для вас пример - дипломов. Они имеют все признаки, необходимые для применения технологии блокчейна - они должны быть общедоступными (контролируемыми) при этом иметь "открытую" и "закрытую" части, они будучи введенными в систему не могут в дальнейшем изменяться, они должны быть исторически увязаны между собой. Вполне жизненный кэйс.
    Ответ написан
    Комментировать
  • Перспективные направления в Big Data?

    @dmshar
    Ну, я бы не был столь категоричен относительно R.
    Смотрим в один из самых авторитетных источников:
    https://www.tiobe.com/tiobe-index/
    R в 2008 году - 0.045% аудитории, в 2018 - 2.549%
    Python в 2008 году - 4.227%, в 2018 - 4.678%.
    Сравните темпы роста пользовательского компьюнити на том и и другом языках.
    Можно сделать сравнение и за последние пять лет.
    Да, Python пользуют примерно в два раза больше людей, чем R.
    Но! Ниша R - исключительно DS. Ниша Python - DS+ Webразработка + Первый язык обучения( во многих школах США как минимум). Понятно, что аудитория за счет второго и третьего слагаемого будет существенно шире. Кстати, R - единственный откровенно "нишевый" язык в первой десятке.
    Вывод. Хочешь в Big Data и Data Science - R И Python must have!
    Ответ написан
    Комментировать
  • У кого какая доля рынка веб сайтов?

    @dmshar
    Да понятно, что Гуглу тяжело это понять.
    А попытайтесь-ка сами сформулировать строгие различия. Ну например, чем сайт типа "Business card website" отличается от сайта типа "Landing page". Только формально, т.е. так, что-бы какой-либо робот, зайдя нас сайт, мог определить отличия.
    То же самое с "Blog" и "News portal" - на некоторых блог-сайтах информации больше, и изменяется она чаще, чем на других новостных порталов. Да и авторский коллектив блога может быть больше всей редакции.
    В общем, не думаю, что такое разделение можно реально провести. Даже в ручную. Не говоря уже об автоматизации этого процесса.
    Ответ написан
    Комментировать
  • Как найти взаимосвязь между входными и выходными параметрами?

    @dmshar
    То, что вы описали - есть предмет изучения научных и инженерных дисциплин, как Machine Learning, Data Science, Data Mining, Statictics, Deep Learning, Big Data etc.
    Просто перечнем названий алгоритмов и фреймворков тут не обойтись.
    Ответ написан
    Комментировать
  • Где можно почитать про методы сравнения алгоритмов анализа данных?

    @dmshar
    Уточните вопрос.,
    "Алгоритмы анализа данных" вовсе не то же самое, что "алгоритмы принятия решений".
    В свою очередь, анализ данных - весьма обширная область, включающая и Machine Learning, и Data Minimg, и статистические алгоритмы, и ставшие супермодными нынче нейронные сети. В каждом разделе по несколько десятков только основных алгоритмов.
    Внутри одной группе алгоритмы можно сравнивать по области применимости, по вычислительной сложности, по мощности, по многим другим специальным параметрам.
    Поэтому, если хотите более конкретного ответа - уточните, что именно вас интересует и как вы собрались эти алгоритмы сравнивать.
    Ответ написан
  • Какие книги/курсы посоветуете для R/Python (Data mining)?

    @dmshar
    Ответ написан
    Комментировать
  • Минимальный размер объекта для распознавания?

    @dmshar
    Вы распознаете не физический размер объекта, а размер объекта на картинке.
    Соответственно - ключевой момент разрешающая способность вашего снимка.
    Чем выше - тем точнее будет результат распознавания.
    Ответ написан
    Комментировать
  • Необходимо ли знать прикладные инструменты для больших данных, анализа и машинного обучения?

    @dmshar
    Для работы с Big Data, Machine Learning и аналитики данных существует уйма различных инструментов - от Python до Watson, от RCPP до TensorFlow, от Tableau до SPSS, от RapidMiner до Hadoop.... Список можно продолжать и продолжать. Между прочим, даже тривиальный MS EXCEL имеет средства для большинства из указанных задач.
    В принципе все задачи можна решать хоть на С++, хоть на Java хоть на Ассемблере. Вот, даже на JavaScript уже пишут нейронные сети. Вопрос - что именно вы хотите в конечном счете сделать, как глубоко понимать что именно вы делаете, как быстро вам надо проходить путь от постановки задачи к готовому решению, какие деньги вы готовы потратить на получение этого решения и какими начальными знаниями в области технологий программирования вы или ваша команда владеете.
    Поэтому рекомендую обучение начать не с инструментов, а с идей, алгоритмов и методов, лежащих в основе задач Data Science. А по ходу - разберетесь, какой именно инструмент конкретно для вашего случая наиболее подходящий. И скорее всего, это будет не один какой-то инструмент, а несколько, которые в совокупности наиболее полно и эффективно покроют именно ваш круг потребностей.
    Ответ написан
    Комментировать
  • Какие диаграммы и виды визуализации вы знаете?

    @dmshar
    "Смешались в кучу кони, люди...." В одном перечне ER диаграммы (концептуальное описание данных) , Гистограммы (из области статистики и анализа данных), Sunburst диаграммы (анализ данных), Mindmap (структуризации концепций и знаний)UML диаграммы ( язык графического описания для объектного моделирования )..... Кстати ничего, что на текущий момент существует 12 типов диаграмм, объединяемых под "крышей" UML? И "визуализация" на приведенной в вопросе схеме - это диаграмма последовательности UML.
    Ваш вопрос подобен "Есть языки Русский, Английский, С++, Javascript, FORTRAN, эзопов язык, язык телодвижений, телячий, язык колокола. Чем еще можно дополнить этот список".
    Если хотите получить ответ именно по интересующей вас теме, то уточните, в какой области заний или науки вас интересуют "диаграммы и визуализация".
    Ответ написан
    Комментировать
  • Что выбрать в качестве темы дипломной работы?

    @dmshar
    Нет, Тостер себя не изжил. Но какой ответ вы хотели получить даже не упомянув название своей специальности? А ведь дипломная работа делается не "по теме", а именно "по специальности". Что толку, если вам подскажут тему для Прикладной Математики, если ваша специальность Финансовая Аналитика?
    И какой вам толк, если вам назовут то, что "сейчас актуально", если у вас на это (вдруг) не хватит базовой подготовки?
    Ответ написан
    2 комментария
  • Как попроще кластеризовать данные?

    @dmshar
    Не понятен вопрос "куда засунуть"? А каким инструментом Вы пользуетесь?
    Если R - вот, выбирайте из имеющихся:
    https://www.hackerearth.com/practice/machine-learn...
    Если на Python - то некоторые готовые решения описаны тут
    py-algorithm.blogspot.com/2014/10/blog-post_12.html
    Если на SPSS - то выбирайте тут
    www.datuapstrade.lv/rus/spss/section_20/8
    Если на SAS - то https://www.sas.com/content/dam/SAS/ru_ru/doc/acad...
    В Statistica - свои средства - cdo.bseu.by/stat1/lab_3.htm
    Свои средства кластеризации есть у TensorFlow, в RapidMiner, в KNIME.
    Везде - готовое и несложное. Выбирайте, чем Вы лучше владеете.
    Ответ написан
    Комментировать
  • Как предсказать время поломки/срок службы оборудования?

    @dmshar
    Есть такой раздел Data Science, который очень оптимистично называется "анализ выживаемости". Название историческое, так как изначально анализируются шансы пациентов выжить за определенный промежуток времени. Или выздороветь - в зависимости от уровня оптимизма :-).
    Так вот, в общем случае этот раздел как раз и строит модели, нацеленные в том числе на выявление вероятности поломки оборудования, вероятности свершения какого-то определенного события, попыток предсказания момента выхода оборудования из строя и т.д. Ну вот, из самого свежайшего (буквально вчерашнего) и простейшего описания этого раздела Data Science - можно прочитать тут: https://datascienceplus.com/survival-analysis-part-i/
    (Кстати, тут и объясняться, за одно, и почему классическая регрессионная модель в данном случае не работает, и в чем отличия ее от модели выживаемости).
    Из более фундаментального - statsoft.ru/home/textbook/modules/stsurvan.html
    И вообще, информации по теме много. Ключевые слова - "анализ выживаемости".
    Ответ написан
    Комментировать
  • Могли бы объяснить что такое квартиль и медианна?

    @dmshar
    Если данные распределены не по нормальному закону распределению ( а они практически всегда так распределены, просто в одних случаях - близко к нормальному, а в других - нет), то как раз среднее арифметическое есть малоинформативная величина, в отличии от медианы.
    Наглядный пример:
    Заработная плата по предприятию
    -$100, $110,$120,$130,$140,$150,$160,$170,$200,$250,$900
    Среднее - 220,9. О чем она говорит? Ага средняя зарплата вполне достойная :-)
    Медина - 150. Вполне понятно - половина людей получает меньше, вторая половина больше.
    Квартили - это разбиение выборки на четыре равные по количеству элементов в них части.
    Из ваших данных, кстати, видно, что они не очень-то нормальные.
    Ответ написан