• Как правильно формировать Dataset?

    @dmshar
    Как Dataframe.
    А его - в файл.
    Это если вы сказали то, что хотели сказать, а именно "Как хранить".
    Ответ написан
  • Есть ли аналоги ШАД в Европе?

    @dmshar
    На сколько я знаю, ни один приличный универ не берет на обучение людей, не умеющих, читать, писать и самостоятельно искать ответы на элементарные вопросы в Google.
    Ну вот вам "что-нибудь подобное", выбирайте:
    https://www.kdnuggets.com/education/europe.html
    Может кто и сжалится.
    Ответ написан
    1 комментарий
  • Как дальше продвигаться новичку в питоне?

    @dmshar
    Я обычно объясню необходимость изучения алгоритмов примерно так.
    Представте, вы учитесь играть на музыкальном инструменте и хотите стать музыкантом.
    Не тем, который "три аккорда - любая мелодия" а настоящим, классным исполнителем неважно чего - хоть Битлз, хоть Бетховена, хоть Моцарта - но именно классным.
    Ежу понятно, как идти к этой цели.
    - Сначала играем гаммы. Долго, упорно. до автоматизма.
    - Потом играем этюды. Да это скучновато, да это точно не Битлз, да мелодия не ахти -но там есть тысячи пассажей и приемов, от простых к сложным. Вот их мы осваиваем, постепенно, повышая свое мастерство. Шаг за шагом, с каждым этюдом или с каждой адаптированной для новичков мелодией приобретаем навыки игры все более и более сложных "комбинаций нот".
    - И только потом учимся играть "настоящую" музыку.
    Попытки перескочить этот естественный путь развития приедет к тому, что "для себя" вы играть может быть и научитесь, но вот слушать вас толпы зрителей - вряд-ли согласятся добровольно.
    Ничего не напоминает?

    Гаммы -- синтаксис языка программирования и простейшие задачи из учебников. Даже если в этих учебниках есть примеры "как бы сложных" проектов - игр, решалок и пр. - это все равно с точки зрения профессионала не более, чем гаммы. И научившись этому кодировщиком вы станете, а вот алгоритмическое мышление развить - врят-ли.

    Этюды -- вот это и есть алгоритмы. На самом деле этот курс надо рассматривать не как последовательое изучения предмета (как математика, физика, химия, история..) а как мастер-класс, в котором вам показывают, как подойти к задаче, с какой стороны ее проанализировать, как разложить на последовательность элементарных кирпичиков и как потом эти кирпичики сложить в стройную конструкцию. По сути вас учат алгоритмически думать, тренировать себя для того, что-бы потом, освоив эти навыки уметь самостоятельно "играть любую мелодию"=составлять любую программу от идеи до реализаци, и составлять ее так, что-бы она была по возможности эффективной, читабельной и масштабируемой.

    Конечно, изложение выше - это некое упрощение, можно сказать краткое объяснение на пальцах для новичков. Но суть от этого не меняется. И алгоритмы - есть обязательное (одно из многих других, кстати!) условие превращения "кодировщика" в "разработчика", даже если этот разработчик никогда сам в жизни не будет писать алгоритм сортировки или обхода графа.
    Вот как-то так.
    Ответ написан
    1 комментарий
  • Как удалить повторяющиеся строки в df, кроме одной с максимальным значением?

    @dmshar
    df.drop_duplicates(subset=['Описание','Артикул'], keep="last")

    Out[132]:
    Описание Цена Артикул
    1 бочка 300 1
    3 стол 450 4
    Ответ написан
  • Какие есть перспективные программы для обеспечения информационной безопасности?

    @dmshar
    Вы готовитесь стать специалистом по ИБ, я так понимаю? Тогда вы должны бы знать, что ИБ - это очень широкая и разветвленная область, и даже внутри нее одни специалисты (т.е. специалисты в одних задачах) совершенно не понимают других специалистов. Поэтому искать и уповать на наличие таких универсальных продуктов - по крайней мере очень по-дилетантски. Но судя по формулировке темы, вам надо не программы описывать, а изучать что там (в таможенных органах) есть, эти программы исследовать и уже им - возможно(!!!) искать замену.
    Ответ написан
  • Где точка пересечения машинного обучения и робототехники?

    @dmshar
    Знает кто-нибудь реальные примеры, где нужны такие люди?
    Судя из вопроса что-то я сильно сомневаюсь, что вы такой человек. Я имею ввиду такой, который одинаково и глубоко знает и то и другое.
    Знаете, мечты сильно отличаются от реальности.
    Поэтому изучите сначала хотя-бы что-то одно. А там и найдете точки пересечения. Или уже перестанет быть интересно.
    Ответ написан
    3 комментария
  • Чем pandas отличается по возможностям от MS Excel,MS Access, SQL?

    @dmshar
    Pandas - инструмент программирования, даются возможности, делай что хочешь. MS Excel,MS Access - закрытые инструменты: что дали тем и пользуйся. Шаг вправо, шаг влево - и сполошной головняк. Попробуйте на EXCEL реализовать какой-нибудь простенький метод типа WMW или ARIMA- замаетесь. Я уж не говорю, если что-то надо считать в режиме он-лайн. А табличку простенькую (и не очень) - конечно, проще вести на EXCEL. SQL - вообще доступ к БД и больше по сути ничего.
    Так что каждый овощ - в свой салат. А для каждой задачи - свой инструмент.
    Ответ написан
    Комментировать
  • Лучший интерактивный русскоязычный сайт с задачами по JS?

    @dmshar
    чтобы начинающие разработчики однозначно понимали задания. Что посоветуете?
    - тут ответ понятен и однозначен. Посоветую начинающим разработчикам - изучать английский. Тогда ВСЁ будут понимать, точно и однозначно. Кстати, обучающие курсы - отличный, может быть лучший полигон для оттачивания английского. И наоборот - необходимость языка для изучения интересующей темы - отличный стимул в освоении этого самого языка (на отсутствие которого часто жалуются ленивцы).
    Ответ написан
    Комментировать
  • Как посчитать прогноз на показатель SL?

    @dmshar
    Теория массового обслуживания рассматривает и такие задачи в частности. Посмотрите внимательно. Ответ на самом деле зависит от законов распределеня вашего входного потока и времени обслужвания - в вашем случае - операторов КЦ.
    Ссылок в интернете - и на довольно неплохие учебники по теме в том числе - полным полно.
    Ответ написан
  • CTF. Что почитать?

    @dmshar
    Начните с университетского курса по ИБ. Реверсинжиниринг, анализ трафика, навыки программирования, аудит инфобезопасности и анализ защищенности, системное администрирование, криптоанализ, безопасность мобильных приложений.... Вот это и есть "основа основ". Разумеется, для того, что-бы участвовать в соревнованиях к этим основам надо существенно "добавить" всякого, чего можно поверх теории освоить исключительно из практики.
    Ответ написан
    Комментировать
  • Как распознать кириллический экранный текст на изображении?

    @dmshar
    Берете в качестве примера обучение сети некирилическому тексту (скорее всего, вам будет доступен английский), разбираетесь и сами (если уж хочется самостоятельности) по аналогии делаете распознавание кириллицы.
    А то, что качество не радует - ну так сравните, на скольких РАЗМЕЧЕННЫХ примерах обучались английские распознавалки и сколько вы им можете подсунуть за разумное время кириллических размеченных образцов.
    Ответ написан
  • В чем заключается идея оптимизации метода оптимизации сети?

    @dmshar
    Что-то вы сбились с пути. Начали правильно, потом вас занесло.
    На этапе обучения нейросети мы действительно минимизируем некоторую функцию F(x). Эта минимизация заключается в подборе параметров этой функции - w.

    Для того, что-бы подобрать эти параметры можно пойти разными путями: от простого "лобового" перебора всех возможных их значений (естественно - абсолютно неэффективный путь) до методов основанных на идеи градиентного спуска. Этот класс методов - очень грубо - заключается в следующем. Находясь в некоторой точке пытается путем просчета значений функции при маленьких изменениях указанного параметра понять, в каком направлении надо действительно изменить параметры, что бы продвинуться к точке оптимума. Обратите внимание, в данном - минимизируем по w, а не по х. И ни о каком "сеть учит сеть речи не идет".

    Если этот поиск (градиентный спуск) делать в точности так, как я описал, решение может искаться долго, может случатся "перескок" через точку оптимума и другие ситуации, которые как минимум ухудшают время поиска оптимума, а иногда и вовсе делают его невозможный. Разные более продвинутые методы пытаются обойти эти ситуации.
    backpropagation же это просто способ "обратного переноса" ошибки - от ошибки, зафиксированной на выходе обучаемой нейросети к подбираемым значениям w.
    Опять таки, о " оптимизации метода оптимизации сети" речи не идет.

    То что вы задали такой вопрос - это очень хорошо. Плохо то, что такое искаженное представление возникает доcтаточно часто. Как правило - у тех, кто пытается сразу "надкусить" нейронную сеть, вместо того, что-бы пойти нормальным путем - разобраться с тем что такое оптимизация, как она реализуется численно, как применяется и наконец, после всего этого - как используется именно в нейронных сетях. Увы, издержки попыток обмануть нормальный путь (само)образования в области Machine Learning.
    Ответ написан
    Комментировать
  • Как стать data scientist?

    @dmshar
    Не иссякаем поток.
    Надеюсь вы уже ознакомились со ВЧЕРАШНИМ постом:
    Машинное обучение, что нужно знать в математике?
    Прошли по ссылкам, посмотрели, оценили, выбрали наиболее подходящие именно для вас ( в том числе - по уровню подготовки, по финансовым и пр. возможностям) и пришли спрашивать о каких-то конкретных "ресурсах" а не "о вообще". Или хотите узнать мнения конкретных людей, а не обезличенных пользователях Тостера с непонятным отношением к Data Science. Ну, или приведенные в указанных постах рекомендациях вам по какой-то причине вообще ничего не подошло и вы хотите получить еще пару десятков ссылок для углубленного ознакомления?
    Ответ написан
    Комментировать
  • Машинное обучение, что нужно знать в математике?

    @dmshar
    Ребята, вы что совсем "того". Я понимаю, задать вопрос в Гуугл - это сверхтрудная задача, требующая невероятных умственных усилий и полного напряжения сил. Но просто просмотреть сам Тостер, ну хотя-бы всего-лишь за последние 3 (ТРИ !!!) дня, даже не неделю, Что и на это ума-разума не выросло?
    Литература или какие-нибудь курсы математики для машинного обучения? - задан 7 марта.
    Что нужно изучать для глубокого анализа данных? - задан 8 марта.
    Был курс, но не могу найти его снова, по питону и машин леарнинг? - задан 9 марта.
    Это что, полная деградация Тостера как площадки для повышения квалификации и превращение его в площадку для лентяев и школьников-недоучек?

    А по теме уже писал. Если человек при свободном доступе к интернет не способен самостоятельно найти ответ на такой элементарнейший вопрос - делать ему в области такой мозгоемкой отрасли как машинное обучение - нечего. Ну или в лучшем случае - рано.
    Ответ написан
    2 комментария
  • Был курс, но не могу найти его снова, по питону и машин леарнинг?

    @dmshar
    Вот поэтому, суперточному описанию "то ли по нейросетям, то ли по машинному обучению на питоне...... используется библиотечка онлайн ...... есть какой-то датасет.... а оно тебе графики строит, предугадывает дальнейшее поведение и прочие прелести.......то ли от гугла, то-ли еще от кого-то известного...... Или может что еще посоветуете почитать. " .
    в сети не просто много, а почти все, что там есть.
    Надоело для ленивых каждый раз переписывать. Вот позавчера уже составлял для очередного страждущего знаний, там и литература и курсы:
    Литература или какие-нибудь курсы математики для машинного обучения?
    А по самой задаче - проблема в том, что у каждого из ваших конкурентов может быть своя особая модель, иногда в корне противоречащая другим. С помощью МL вы можете либо попытаться понять, у каких конкурентов подобные модели (задача кластеризации) либо для каждого из конкурентов (или их выделенных групп) составить их модель ценообразования. Впрочем смысл последнего действия более чем сомнителен.

    А графики посмотреть - так это вообще к МL никаким боком не относиться.
    В общем - пора наводить порядок в своих мыслях и от "поразмыслить" переходить к "исследовать"
    Ответ написан
  • Как проклассифицировать пост в социальной сети?

    @dmshar
    Ваш вопрос как-то уж очень сумбурный.
    Что удалось из него понять.
    1. Вы умеете выявлять тональность текста. Предположим - "негатив-позитив". Скорее всего результат можно нормировать в диапазон (-1;+1)
    2. Вы умеете классифицировать изображения "там" (кстати - где "там"?) Ну, проклассифицировали по классам. Может по дихотомическим, может по множественным. Получили некоторую оценку принадлежности к классу, которые сами предварительно выделили. В любом случае полученную оценку можно при необходимости нормировать.
    3. Что с чем связывать вы собрались? Если предположить, что и первая и вторая задача разбрасывала ваши посты по классам - то тогда вы теперь можете перейти к классической многомерной (а очень похоже - что всего-лишь двумерной) задаче классификации, которую можно решить любым известным методом. Правда, придется перепробовать разные методы, так-как универсального нет. Но есть надежда, что что-нибудь в диапазоне от kNN до случайного леса вам да и подойдет.
    4. Если есть добавочная информация - ну в худшем случае это увеличит количество признаков, с которыми работает классификатор.
    5. Как нет готового датасета? Вы же написали "я беру и обучаю свою модель по готовым датасетам". Т.е. есть датасет постов с текстами, очевидно - и с картинками, причем раз вы уже обучили - то значит он размеченный. И вы же сами пишете "к посту есть инфа о названии группы где он выложен, дате, количестве лайков и репостов". Ну не отбрасывайте эту информацию, а вместе с результатами сентиментного анализа и классификации изображений передавайте на конечный, обобщающий классификатор. Проблема-то в чем?
    Ответ написан
  • Что нужно изучать для глубокого анализа данных?

    @dmshar
    Начните с Мат.Анализа, раз уже такое слово выучили. Не пропадать же "областям из наук". А "чтобы выявить большое количество инсайтов из данных" - так вам лучше сразу в разведку. Чего мелочиться. (Кстати, объясните нам, неучам, что такое "инсайты из данных", пожалуйста.)
    Ответ написан
    2 комментария
  • Литература или какие-нибудь курсы математики для машинного обучения?

    @dmshar
    Вот скажите, для вас действительно так непреодолимо трудно самостоятельно набрать в Гуугл соответствующий запрос и получить результат? Или это элементарная лень?
    Ну, выбирайте:
    Математика для машинного обучения и нейронных сетей при школьной базе знаний?
    https://tproger.ru/translations/ai-no-math-2/
    https://techrocks.ru/2019/09/06/15-books-on-machin...
    https://www.youtube.com/watch?v=8Akj6DECbcc
    Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
    С чего начать изучать машинное обучение?
    https://yandexdataschool.ru/edu-process/courses/ma...
    https://otus.ru/promo/math-ds/
    Онлайн обучение на специальность Data Science с нуля. Какие курсы выбрать?
    https://skillfactory.ru/math-stat-for-ds
    https://ai-news.ru/2018/08/matematika_dlya_analiza...
    https://www.ozon.ru/context/detail/id/24699920/
    http://www.machinelearning.ru/wiki/index.php?title...
    https://postnauka.ru/books/74127
    https://dataart.ua/articles/uchimsya-mashinnomu-ob...
    https://neurondata.ru/SJqXpe8vH
    https://it-events.com/events/14786
    https://ecoacademy.econophysica.ru/courses/mathema...
    Machine Learning и Big Data за три дня?
    Статистика для data science. С чего начать?
    Обратите внимание , специально для вас, все - на русском. Хотя без английского в эту тему лучше и не лезть.
    Ответ написан
    Комментировать
  • Как написать алгоритм вычисления почти линейного коэффициента поправки показаний сенсора?

    @dmshar
    Если я правильно понял.
    Есть два набора данных X(напряжение), Y( емкость). Понимаем, что Y замерена с некоторой ошибкой.
    Надо найти функцию F(X), такую, чтобы Ф(Ymoд-Y) -- по сути, ошибка между замеренным (Y) и рассчитанным (Yмод) значениями на заданных точках из Х -- была бы в некотором смысле оптимальна (например - минимальна).
    F()- в простейшем случае линейная функция, в более сложных случаях- не обязательно.
    Если это так то имеем классическую задачу построения регрессионной модели. Имея такую модель можно для произвольного х "предсказать" ожидаемое значение y.
    Если-же под Y понимать не сами значения(емкость), а поправки, которые вы вносите на заданных точках Х, то аналогичным образом построенная регрессионная модель будет "предсказывать" поправку, которую необходимо учитывать в произвольной точке x.
    Ответ написан
  • Прогнозирование отказа прибора?

    @dmshar
    Такие задачи сегодня действительно успешно решаются методами машинного обучения.
    То, о чем вы говорите - "дамп-файл" - это по сути временной ряд с записанными показателями вашего прибора (если я правильно понял). Плюс вы имеете информацию о том, когда в ходе ваших измерений прибор выходил из строя. Все это в совокупности составляет "обучающую выборку". Ваша задача найти такие паттерны в поведении системы, которые предвосхищают наступление сигнала поломки.
    Не знаю, чем вы конкретно занимаетесь, но я встречался с такими задачи в обнаружении отказов оборудования самолета, в обнаружении отказов в работе оборудования АЭС, в обнаружения начальной стадии заболевания, в задаче обнаружения вторжений в компьютерных сетях. Конечно, без грамотной поддержки специалиста в предметной области задачу не решить (или очень сложно решить). Его задача - объяснить в первом приближении, какие параметры могут влиять на появление аварийного сигнала, ваша первоначальная задача - проверить его "показания", скорее всего согласиться с ним, а может и скорректировать этот список (бывает и так).
    После этого ваша задача построить классификатор. Классификатор - это такой алгоритм, заданный либо функционально, либо логически, либо программно, который на вход будет принимать ваши будущие дамп-файлы, а на выходе давать прогноз (ставить диагноз) о приближении события , а по сути - относить эти данные к одному из классов, в простейшем случае - к классам "норма" или "предаварийное состояние".
    В машинном обучении такой подход носит название "обучение с учителем" т.е. в начале вы обучаете (строите) алгоритм классификации, а потом используете его для предсказания. Методов построения классификаторов - достаточно много, от тривиального кNN до методов на основе различных нейросетей, от методов анализа временных рядов до систем на основе нечетких вычислений. И заочно вам сказать, какой именно из этого множества алгоритмов целесообразнее применить именно для вашей задачи -невозможно. Тут уж вам потребуется либо самим разбираться с ними (генеральное направление я указал), либо нанимать специалиста по ML.
    Прочитать об этом можно где угодно - от научно-популярных статей типа
    https://habr.com/ru/post/460467/
    https://towardsdatascience.com/how-to-implement-ma...
    https://www.kdnuggets.com/2017/04/datarpm-predicti...
    до более серьезных работ (тут их приводить нет смысла, если дойдете до уровня когда они вам потребуются - думаю сами их найдете для своей предметной области. Если нет - напишите, чем смогу- помогу).
    В любом случае, поставленная вами задача - не легкая, но интересная. Быстро и с наскока ничего вразумительного вы не получите, но если найдете в себе силы и интерес углубиться - результаты могут быть глубокими и значимыми.
    Удачи!.
    Ответ написан
    2 комментария