Ответы пользователя dmshar — Хабр Q&A

Задать вопрос

Ответы

Есть ли аналоги ШАД в Европе?

dmshar @dmshar

На сколько я знаю, ни один приличный универ не берет на обучение людей, не умеющих, читать, писать и самостоятельно искать ответы на элементарные вопросы в Google.
Ну вот вам "что-нибудь подобное", выбирайте:
https://www.kdnuggets.com/education/europe.html
Может кто и сжалится.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как дальше продвигаться новичку в питоне?

dmshar @dmshar

Я обычно объясню необходимость изучения алгоритмов примерно так.
Представте, вы учитесь играть на музыкальном инструменте и хотите стать музыкантом.
Не тем, который "три аккорда - любая мелодия" а настоящим, классным исполнителем неважно чего - хоть Битлз, хоть Бетховена, хоть Моцарта - но именно классным.
Ежу понятно, как идти к этой цели.
- Сначала играем гаммы. Долго, упорно. до автоматизма.
- Потом играем этюды. Да это скучновато, да это точно не Битлз, да мелодия не ахти -но там есть тысячи пассажей и приемов, от простых к сложным. Вот их мы осваиваем, постепенно, повышая свое мастерство. Шаг за шагом, с каждым этюдом или с каждой адаптированной для новичков мелодией приобретаем навыки игры все более и более сложных "комбинаций нот".
- И только потом учимся играть "настоящую" музыку.
Попытки перескочить этот естественный путь развития приедет к тому, что "для себя" вы играть может быть и научитесь, но вот слушать вас толпы зрителей - вряд-ли согласятся добровольно.
Ничего не напоминает?

Гаммы -- синтаксис языка программирования и простейшие задачи из учебников. Даже если в этих учебниках есть примеры "как бы сложных" проектов - игр, решалок и пр. - это все равно с точки зрения профессионала не более, чем гаммы. И научившись этому кодировщиком вы станете, а вот алгоритмическое мышление развить - врят-ли.

Этюды -- вот это и есть алгоритмы. На самом деле этот курс надо рассматривать не как последовательое изучения предмета (как математика, физика, химия, история..) а как мастер-класс, в котором вам показывают, как подойти к задаче, с какой стороны ее проанализировать, как разложить на последовательность элементарных кирпичиков и как потом эти кирпичики сложить в стройную конструкцию. По сути вас учат алгоритмически думать, тренировать себя для того, что-бы потом, освоив эти навыки уметь самостоятельно "играть любую мелодию"=составлять любую программу от идеи до реализаци, и составлять ее так, что-бы она была по возможности эффективной, читабельной и масштабируемой.

Конечно, изложение выше - это некое упрощение, можно сказать краткое объяснение на пальцах для новичков. Но суть от этого не меняется. И алгоритмы - есть обязательное (одно из многих других, кстати!) условие превращения "кодировщика" в "разработчика", даже если этот разработчик никогда сам в жизни не будет писать алгоритм сортировки или обхода графа.
Вот как-то так.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как удалить повторяющиеся строки в df, кроме одной с максимальным значением?

dmshar @dmshar

df.drop_duplicates(subset=['Описание','Артикул'], keep="last")

Out[132]:
Описание Цена Артикул
1 бочка 300 1
3 стол 450 4

Ответ написан более трёх лет назад

2 комментария

2 комментария
Какие есть перспективные программы для обеспечения информационной безопасности?

dmshar @dmshar

Вы готовитесь стать специалистом по ИБ, я так понимаю? Тогда вы должны бы знать, что ИБ - это очень широкая и разветвленная область, и даже внутри нее одни специалисты (т.е. специалисты в одних задачах) совершенно не понимают других специалистов. Поэтому искать и уповать на наличие таких универсальных продуктов - по крайней мере очень по-дилетантски. Но судя по формулировке темы, вам надо не программы описывать, а изучать что там (в таможенных органах) есть, эти программы исследовать и уже им - возможно(!!!) искать замену.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Где точка пересечения машинного обучения и робототехники?

dmshar @dmshar

Знает кто-нибудь реальные примеры, где нужны такие люди?
Судя из вопроса что-то я сильно сомневаюсь, что вы такой человек. Я имею ввиду такой, который одинаково и глубоко знает и то и другое.
Знаете, мечты сильно отличаются от реальности.
Поэтому изучите сначала хотя-бы что-то одно. А там и найдете точки пересечения. Или уже перестанет быть интересно.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Чем pandas отличается по возможностям от MS Excel,MS Access, SQL?

dmshar @dmshar

Pandas - инструмент программирования, даются возможности, делай что хочешь. MS Excel,MS Access - закрытые инструменты: что дали тем и пользуйся. Шаг вправо, шаг влево - и сполошной головняк. Попробуйте на EXCEL реализовать какой-нибудь простенький метод типа WMW или ARIMA- замаетесь. Я уж не говорю, если что-то надо считать в режиме он-лайн. А табличку простенькую (и не очень) - конечно, проще вести на EXCEL. SQL - вообще доступ к БД и больше по сути ничего.
Так что каждый овощ - в свой салат. А для каждой задачи - свой инструмент.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Лучший интерактивный русскоязычный сайт с задачами по JS?

dmshar @dmshar

чтобы начинающие разработчики однозначно понимали задания. Что посоветуете?
- тут ответ понятен и однозначен. Посоветую начинающим разработчикам - изучать английский. Тогда ВСЁ будут понимать, точно и однозначно. Кстати, обучающие курсы - отличный, может быть лучший полигон для оттачивания английского. И наоборот - необходимость языка для изучения интересующей темы - отличный стимул в освоении этого самого языка (на отсутствие которого часто жалуются ленивцы).

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как посчитать прогноз на показатель SL?

dmshar @dmshar

Теория массового обслуживания рассматривает и такие задачи в частности. Посмотрите внимательно. Ответ на самом деле зависит от законов распределеня вашего входного потока и времени обслужвания - в вашем случае - операторов КЦ.
Ссылок в интернете - и на довольно неплохие учебники по теме в том числе - полным полно.

Ответ написан более трёх лет назад

2 комментария

2 комментария
CTF. Что почитать?

dmshar @dmshar

Начните с университетского курса по ИБ. Реверсинжиниринг, анализ трафика, навыки программирования, аудит инфобезопасности и анализ защищенности, системное администрирование, криптоанализ, безопасность мобильных приложений.... Вот это и есть "основа основ". Разумеется, для того, что-бы участвовать в соревнованиях к этим основам надо существенно "добавить" всякого, чего можно поверх теории освоить исключительно из практики.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как распознать кириллический экранный текст на изображении?

dmshar @dmshar

Берете в качестве примера обучение сети некирилическому тексту (скорее всего, вам будет доступен английский), разбираетесь и сами (если уж хочется самостоятельности) по аналогии делаете распознавание кириллицы.
А то, что качество не радует - ну так сравните, на скольких РАЗМЕЧЕННЫХ примерах обучались английские распознавалки и сколько вы им можете подсунуть за разумное время кириллических размеченных образцов.

Ответ написан более трёх лет назад

3 комментария

3 комментария
В чем заключается идея оптимизации метода оптимизации сети?

dmshar @dmshar

Что-то вы сбились с пути. Начали правильно, потом вас занесло.
На этапе обучения нейросети мы действительно минимизируем некоторую функцию F(x). Эта минимизация заключается в подборе параметров этой функции - w.

Для того, что-бы подобрать эти параметры можно пойти разными путями: от простого "лобового" перебора всех возможных их значений (естественно - абсолютно неэффективный путь) до методов основанных на идеи градиентного спуска. Этот класс методов - очень грубо - заключается в следующем. Находясь в некоторой точке пытается путем просчета значений функции при маленьких изменениях указанного параметра понять, в каком направлении надо действительно изменить параметры, что бы продвинуться к точке оптимума. Обратите внимание, в данном - минимизируем по w, а не по х. И ни о каком "сеть учит сеть речи не идет".

Если этот поиск (градиентный спуск) делать в точности так, как я описал, решение может искаться долго, может случатся "перескок" через точку оптимума и другие ситуации, которые как минимум ухудшают время поиска оптимума, а иногда и вовсе делают его невозможный. Разные более продвинутые методы пытаются обойти эти ситуации.
backpropagation же это просто способ "обратного переноса" ошибки - от ошибки, зафиксированной на выходе обучаемой нейросети к подбираемым значениям w.
Опять таки, о " оптимизации метода оптимизации сети" речи не идет.

То что вы задали такой вопрос - это очень хорошо. Плохо то, что такое искаженное представление возникает доcтаточно часто. Как правило - у тех, кто пытается сразу "надкусить" нейронную сеть, вместо того, что-бы пойти нормальным путем - разобраться с тем что такое оптимизация, как она реализуется численно, как применяется и наконец, после всего этого - как используется именно в нейронных сетях. Увы, издержки попыток обмануть нормальный путь (само)образования в области Machine Learning.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как стать data scientist?

dmshar @dmshar

Не иссякаем поток.
Надеюсь вы уже ознакомились со ВЧЕРАШНИМ постом:
Машинное обучение, что нужно знать в математике?
Прошли по ссылкам, посмотрели, оценили, выбрали наиболее подходящие именно для вас ( в том числе - по уровню подготовки, по финансовым и пр. возможностям) и пришли спрашивать о каких-то конкретных "ресурсах" а не "о вообще". Или хотите узнать мнения конкретных людей, а не обезличенных пользователях Тостера с непонятным отношением к Data Science. Ну, или приведенные в указанных постах рекомендациях вам по какой-то причине вообще ничего не подошло и вы хотите получить еще пару десятков ссылок для углубленного ознакомления?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Машинное обучение, что нужно знать в математике?

dmshar @dmshar

Ребята, вы что совсем "того". Я понимаю, задать вопрос в Гуугл - это сверхтрудная задача, требующая невероятных умственных усилий и полного напряжения сил. Но просто просмотреть сам Тостер, ну хотя-бы всего-лишь за последние 3 (ТРИ !!!) дня, даже не неделю, Что и на это ума-разума не выросло?
Литература или какие-нибудь курсы математики для машинного обучения? - задан 7 марта.
Что нужно изучать для глубокого анализа данных? - задан 8 марта.
Был курс, но не могу найти его снова, по питону и машин леарнинг? - задан 9 марта.
Это что, полная деградация Тостера как площадки для повышения квалификации и превращение его в площадку для лентяев и школьников-недоучек?

А по теме уже писал. Если человек при свободном доступе к интернет не способен самостоятельно найти ответ на такой элементарнейший вопрос - делать ему в области такой мозгоемкой отрасли как машинное обучение - нечего. Ну или в лучшем случае - рано.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Был курс, но не могу найти его снова, по питону и машин леарнинг?

dmshar @dmshar

Вот поэтому, суперточному описанию "то ли по нейросетям, то ли по машинному обучению на питоне...... используется библиотечка онлайн ...... есть какой-то датасет.... а оно тебе графики строит, предугадывает дальнейшее поведение и прочие прелести.......то ли от гугла, то-ли еще от кого-то известного...... Или может что еще посоветуете почитать. " .
в сети не просто много, а почти все, что там есть.
Надоело для ленивых каждый раз переписывать. Вот позавчера уже составлял для очередного страждущего знаний, там и литература и курсы:
Литература или какие-нибудь курсы математики для машинного обучения?
А по самой задаче - проблема в том, что у каждого из ваших конкурентов может быть своя особая модель, иногда в корне противоречащая другим. С помощью МL вы можете либо попытаться понять, у каких конкурентов подобные модели (задача кластеризации) либо для каждого из конкурентов (или их выделенных групп) составить их модель ценообразования. Впрочем смысл последнего действия более чем сомнителен.

А графики посмотреть - так это вообще к МL никаким боком не относиться.
В общем - пора наводить порядок в своих мыслях и от "поразмыслить" переходить к "исследовать"

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как проклассифицировать пост в социальной сети?

dmshar @dmshar

Ваш вопрос как-то уж очень сумбурный.
Что удалось из него понять.
1. Вы умеете выявлять тональность текста. Предположим - "негатив-позитив". Скорее всего результат можно нормировать в диапазон (-1;+1)
2. Вы умеете классифицировать изображения "там" (кстати - где "там"?) Ну, проклассифицировали по классам. Может по дихотомическим, может по множественным. Получили некоторую оценку принадлежности к классу, которые сами предварительно выделили. В любом случае полученную оценку можно при необходимости нормировать.
3. Что с чем связывать вы собрались? Если предположить, что и первая и вторая задача разбрасывала ваши посты по классам - то тогда вы теперь можете перейти к классической многомерной (а очень похоже - что всего-лишь двумерной) задаче классификации, которую можно решить любым известным методом. Правда, придется перепробовать разные методы, так-как универсального нет. Но есть надежда, что что-нибудь в диапазоне от kNN до случайного леса вам да и подойдет.
4. Если есть добавочная информация - ну в худшем случае это увеличит количество признаков, с которыми работает классификатор.
5. Как нет готового датасета? Вы же написали "я беру и обучаю свою модель по готовым датасетам". Т.е. есть датасет постов с текстами, очевидно - и с картинками, причем раз вы уже обучили - то значит он размеченный. И вы же сами пишете "к посту есть инфа о названии группы где он выложен, дате, количестве лайков и репостов". Ну не отбрасывайте эту информацию, а вместе с результатами сентиментного анализа и классификации изображений передавайте на конечный, обобщающий классификатор. Проблема-то в чем?

Ответ написан более трёх лет назад

2 комментария

2 комментария
Что нужно изучать для глубокого анализа данных?

dmshar @dmshar

Начните с Мат.Анализа, раз уже такое слово выучили. Не пропадать же "областям из наук". А "чтобы выявить большое количество инсайтов из данных" - так вам лучше сразу в разведку. Чего мелочиться. (Кстати, объясните нам, неучам, что такое "инсайты из данных", пожалуйста.)

Ответ написан более трёх лет назад

2 комментария

2 комментария
Литература или какие-нибудь курсы математики для машинного обучения?

dmshar @dmshar

Вот скажите, для вас действительно так непреодолимо трудно самостоятельно набрать в Гуугл соответствующий запрос и получить результат? Или это элементарная лень?
Ну, выбирайте:
Математика для машинного обучения и нейронных сетей при школьной базе знаний?
https://tproger.ru/translations/ai-no-math-2/
https://techrocks.ru/2019/09/06/15-books-on-machin...
https://www.youtube.com/watch?v=8Akj6DECbcc
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
С чего начать изучать машинное обучение?
https://yandexdataschool.ru/edu-process/courses/ma...
https://otus.ru/promo/math-ds/
Онлайн обучение на специальность Data Science с нуля. Какие курсы выбрать?
https://skillfactory.ru/math-stat-for-ds
https://ai-news.ru/2018/08/matematika_dlya_analiza...
https://www.ozon.ru/context/detail/id/24699920/
http://www.machinelearning.ru/wiki/index.php?title...
https://postnauka.ru/books/74127
https://dataart.ua/articles/uchimsya-mashinnomu-ob...
https://neurondata.ru/SJqXpe8vH
https://it-events.com/events/14786
https://ecoacademy.econophysica.ru/courses/mathema...
Machine Learning и Big Data за три дня?
Статистика для data science. С чего начать?
Обратите внимание , специально для вас, все - на русском. Хотя без английского в эту тему лучше и не лезть.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как написать алгоритм вычисления почти линейного коэффициента поправки показаний сенсора?

dmshar @dmshar

Если я правильно понял.
Есть два набора данных X(напряжение), Y( емкость). Понимаем, что Y замерена с некоторой ошибкой.
Надо найти функцию F(X), такую, чтобы Ф(Ymoд-Y) -- по сути, ошибка между замеренным (Y) и рассчитанным (Yмод) значениями на заданных точках из Х -- была бы в некотором смысле оптимальна (например - минимальна).
F()- в простейшем случае линейная функция, в более сложных случаях- не обязательно.
Если это так то имеем классическую задачу построения регрессионной модели. Имея такую модель можно для произвольного х "предсказать" ожидаемое значение y.
Если-же под Y понимать не сами значения(емкость), а поправки, которые вы вносите на заданных точках Х, то аналогичным образом построенная регрессионная модель будет "предсказывать" поправку, которую необходимо учитывать в произвольной точке x.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Прогнозирование отказа прибора?

dmshar @dmshar

Такие задачи сегодня действительно успешно решаются методами машинного обучения.
То, о чем вы говорите - "дамп-файл" - это по сути временной ряд с записанными показателями вашего прибора (если я правильно понял). Плюс вы имеете информацию о том, когда в ходе ваших измерений прибор выходил из строя. Все это в совокупности составляет "обучающую выборку". Ваша задача найти такие паттерны в поведении системы, которые предвосхищают наступление сигнала поломки.
Не знаю, чем вы конкретно занимаетесь, но я встречался с такими задачи в обнаружении отказов оборудования самолета, в обнаружении отказов в работе оборудования АЭС, в обнаружения начальной стадии заболевания, в задаче обнаружения вторжений в компьютерных сетях. Конечно, без грамотной поддержки специалиста в предметной области задачу не решить (или очень сложно решить). Его задача - объяснить в первом приближении, какие параметры могут влиять на появление аварийного сигнала, ваша первоначальная задача - проверить его "показания", скорее всего согласиться с ним, а может и скорректировать этот список (бывает и так).
После этого ваша задача построить классификатор. Классификатор - это такой алгоритм, заданный либо функционально, либо логически, либо программно, который на вход будет принимать ваши будущие дамп-файлы, а на выходе давать прогноз (ставить диагноз) о приближении события , а по сути - относить эти данные к одному из классов, в простейшем случае - к классам "норма" или "предаварийное состояние".
В машинном обучении такой подход носит название "обучение с учителем" т.е. в начале вы обучаете (строите) алгоритм классификации, а потом используете его для предсказания. Методов построения классификаторов - достаточно много, от тривиального кNN до методов на основе различных нейросетей, от методов анализа временных рядов до систем на основе нечетких вычислений. И заочно вам сказать, какой именно из этого множества алгоритмов целесообразнее применить именно для вашей задачи -невозможно. Тут уж вам потребуется либо самим разбираться с ними (генеральное направление я указал), либо нанимать специалиста по ML.
Прочитать об этом можно где угодно - от научно-популярных статей типа
https://habr.com/ru/post/460467/
https://towardsdatascience.com/how-to-implement-ma...
https://www.kdnuggets.com/2017/04/datarpm-predicti...
до более серьезных работ (тут их приводить нет смысла, если дойдете до уровня когда они вам потребуются - думаю сами их найдете для своей предметной области. Если нет - напишите, чем смогу- помогу).
В любом случае, поставленная вами задача - не легкая, но интересная. Быстро и с наскока ничего вразумительного вы не получите, но если найдете в себе силы и интерес углубиться - результаты могут быть глубокими и значимыми.
Удачи!.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Приложение для андроид распознавание лиц, с чего начать?

dmshar @dmshar

А программировать-то вы умеете? Тем более для Андроид? А что такое "распознавание образов" знаете? Если нет , то совет первый - начните с этого.
"Какие сложности могут возникнуть" - самая главная сложность - это некомпетенция участника проекта. Для проверки того, достаточна-ли ваша компетенция попробуйте дать ответ на вопрос - а для чего при примерке парика или очков использовать распрознавание лиц?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Самые активные сегодня

Дмитрий Клименков
- 5 ответов
- 0 вопросов
alexbershow
- 1 ответ
- 1 вопрос
OSBoy
- 0 ответов
- 1 вопрос
Денис Подыниглазов
- 1 ответ
- 0 вопросов
Иван Антонов
- 0 ответов
- 1 вопрос
Dyikot
- 0 ответов
- 1 вопрос