Ответы пользователя dmshar — Хабр Q&A

Задать вопрос

Ответы

Какой алгоритм может определить аномалии на графике?

dmshar @dmshar

Можно, конечно, заняться изобретением велосипеда. А можно набраться ума-разума, начав с теории. Тем более - она вам в жизни пригодится, т.к. ту задачу которую вы описали встречается в разных видах в экономике, информационной безопасности, медицине, технической диагностике, маркетинге - в том числе и аномалии посещения страниц, типа ваших - и еще в десятках других предметных областей, и изучив эту задачу вы обеспечите реальную заинтересованность в вас как специалиста десятков работодателей в будущем.
Теория эта называется действительно по разному - "поиск и выявления аномалий", "changepoint detection", "обнаружение разладок и выбросов" и пр. В первом приближении все сводится к анализу временнЫх рядов и методам классификации, и обнаружении изменения моделей, которыми данные описываются ( "превышение уставок", выход за 3сигма и пр. - это только самые тривиальные и наивные из методов, которые сегодня применяются. Только, конечно не "процентные колебания"). Причем, если хотите все сделать по-серьезному, то надо изучать и параметры самих рядов (не только среднюю и дисперсию), проверять коррелированность посещения страниц сайтов, выявлять тренды и сезонность, проверять наличие кластеризации в данных и пр. пр.пр.
Ну а можно, конечно, и "побыстрее", лишь бы что-то там квазиумное считало. Зато есть что заказчику показать. Тогда да - посчитали среднее, наши отклонения, нарисовали красивый график, впечатлили заказчика, получили вознаграждения, профит. Каждый выбирает свой путь.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Какие есть способы классификации музыки нейросетью?

dmshar @dmshar

Классификация музыкальных произведений - это как? По предпочтению, по стилю, по композитору, по используемым инструментам, по громкости?

Ответ написан более трёх лет назад

2 комментария

2 комментария
Магистратура: Информационная безопасность или UX/UI дизайн?

dmshar @dmshar

ИМХО, если нет базового образования по компьютерной инженерии, компьютерным наукам и пр, то в ИБ соваться смысла нет. Уж больно много придется наверствовать и изучать самостоятельно, что-бы хотя-бы понять, о чем речь ведется. А вот UX/UI дизайн - вполне подъемный даже для людей с гуманитарным бекграундом. . С моей точки зрения - это даже скорее не ИТ-науки в чистом виде, а скорее "немного ИТ" с глубоким креном в область психологии, социологии, дизайна, маркетинга и пр.
Что касается зарубежных компаний, то у них своих UX/UI дизайнеров вполне хватает. Но вот к качеству подготовки ИБ-специалиста требования будут предъявляться существенно более высокие. Да и в местных компаниях - дизайнера всегда можно "по месту" доучить-подшлифовать-натаскать, ошибки - если вдруг- загладить и пр. А проколы в организации ИБ способны таких убытков нанести, что иногда лучше вообще без , чем с "недоспециалистом".
Ну и знание иностранного (английского) у нормального ИБ-спеца должны быть на два порядка выше, чем у UX/UI дизайнера.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как посчитать минимальную выборку?

dmshar @dmshar

"Сигма с фиксированными значениями" покажет вам не более, как количество (в статистическом смысле) элементов выборки, лежащих в интервале сигма, два сигма, три сигма и т.д.
На сколько я понял вашу задачу, вам надо определить объем выборки, который нужно иметь, что-бы с заданной достоверностью утверждать, что процент конверсии равен Х.
Задача не столь тривиальная как кажется.
Есть подробное и несложное трактование в работе ( на медицинской тематике, но математическая суть подхода от этого не меняется)
kingmed.info/media/book/2/1317.pdf - стр.86-94.
Еще могу рекомендовать статью
https://cyberleninka.ru/article/n/opredelenie-mini...
Можно глянуть еще тут:
biostat-r.blogspot.com/2015/03/trialsize.html
(тоже с медицинским уклоном)

Если владеете английским - то
r-video-tutorial.blogspot.com/2017/07/power-analys...

Ответ написан более трёх лет назад

Комментировать

Комментировать
Обучение нейронной сети на видеокарте. Keras + tensorflow?

dmshar @dmshar

А что, Google уже отключили?
Первая-же ссылка:
https://stackoverflow.com/questions/40690598/can-k...
вторая: https://datascience.stackexchange.com/questions/13...
третья (для совсем ленивых - еще и с видео в придачу):
https://www.asozykin.ru/deep_learning/2017/03/11/H...

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как вернуть первоначальный (исходный) вид нормализованным данным?

dmshar @dmshar

Элементарная математика (класс этак седьмой или восьмой) подсказывает нам, что если xMin, xMax, dMin и dMax известны, то по значению y восстановить х возможно. Формула получается элементарно.
Если же нет (ну, например, вы "потеряли" xMin и xMax), то восстановление невозможно.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как объяснить переобучение в терминах сигнал-шум?

dmshar @dmshar

Вообще-то говоря, в каких терминах объяснять - все равно, т.к. явление переобучения - это когда ваша модель отлично работает на обучающей выборке (ну наверное, в вашем случае - отлично отделяет сигнал от шума на тех данных, на которых вы ее обучаете) и плохо, т.е. с большим количеством ошибок, - на тестовых данных. Четкой границы вообще-говоря нет. Как многое в статистике и машинном обучение - все определяется исходя из здравого смысла и семантики в терминах прикладной предметной области. Иногда, правда можно применить "полуформальные" методы, например - метод "колена" в кластерном анализе, но и там все равно за исследователем остается свобода выбора конечного решения.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Можете посоветовать книги по IT направлениям?

dmshar @dmshar

Как-то попался вот такая страничка:
https://proglib.io/p/cs-learning/
Посмотрите. Там не только книжки, но может у вас будет такая возможность. В любом случае - как структурированный указатель того, "что надо" может оказаться полезным.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Каким должен быть ответ нейронной сети (выходные данные)?

dmshar @dmshar

И как же народу задурили голову нейросетями.
Задача, которую вы описали - предсказание значения температуры, например - вполне спокойно решается гораздо более "человеческими" методами, в частности - в классическом анализе временнЫх рядов.
Совет - начните изучение ML - с начала (с вероятности, анализа гипотез, регрессии и пр.), а не с конца (нейросетей и Deep Learning).

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как написать нейронную сеть, которая будет определять была ли атака на сеть?

dmshar @dmshar

Как тут уже сказали, нейронная сеть тут очень далеким боком. Существуют несколько десятков (!!!) методов, которые по информации о состоянии сети или трафика могут распознать была атака или нет, некоторые могут распознать и конкретный тип атак. Как на данных KDD cup99 так и при других способах описания состояния объектов информбезопасности. Тема не новая и достаточно хорошо изученная. Существуют и статьи и книги и даже учебники на эту тему. Если вы хоть расскажете, зачем это вам надо (для учебных целей по ИБ, для учебных целей по ML, для учебных целей по нейронкам, как бакалаврская работа, как магистерская, как научная задача, как задача поставленная перед вами как системным администратором, владеете вы английским, или как обычно "со словарем" :-), - тогда и советовать можно будет что-то более направленное. А так посмотрел - ну лежит у меня на диске около 200 статей-книг по теме "Применение ML для выявления атак", да еще около 100 в закладках Хрома. И это вообще-говоря не предел и не все, что можно найти в сети. Какие из них по вашей мерке, а какие - не по зубам или наоборот, слишком тривиальные?
Опишете себя - можно будет подбирать. А так...
P.S. Кстати, как следует из названия, KDD cup99 - база собранная ДО 1999 года. Сделать что-то реально-актуальное по данным двадцатилетней давности - как то немного сомнительно.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как быстро получить обзор методов машинного обучения?

dmshar @dmshar

А что такое "получить"? Я так понимаю, "получают" образование. Вы спрашиваете - где учиться? Ну тогда было бы неплохо знать, где живете, уровень вашего текущего образования и (как обычно для ИТ-специальностей) - уровень вашего английского.
А если "получить" - это самостоятельно освоить - ну так в интернете ресурсов просто море:
www.7wdata.be
https://www.datasciencecentral.com
https://datascienceplus.com
https://www.kdnuggets.com
https://www.analyticsvidhya.com
https://towardsdatascience.com
и далее по списку......
Написано только что

Ответ написан более трёх лет назад

Комментировать

Комментировать
Список литературы (или курсов) математики для Data Scientist?

dmshar @dmshar

Так "список литературы и курсов для Data Scientist" (как в названии) или" Список литературы(или курсов) МАТЕМАТИКИ для Data Scientist" (как в тексте). Это как бы немного разные вещи.
На базе 7-9 класса можно, конечно, захотеть и Великий адронний колайдер следать дома на кухне, но все-таки рекомендую для Data Science остановиться на любом наборе курсов математики на уровне 2-3 курса вышки. Ну, например, - линейная алгебра+методы оптимизации с численными методами+теория вероятности и основы матстатистики+основы дискретной математики +алгоритмы обработки данных.
Любые учебники - вполне пригодны. Наичнайте читать и если вам понятно и учебник "зашел" - алтернативы искать не стоит .
А если текущий уровень - это 7-9 класс" - ну так стоит начать с того, что-бы довести его до уровня, при котором можно начинать университетские учебник читать - т.е до уровня выпускного класса (как минимум).
Удачи.

Ответ написан более трёх лет назад

4 комментария

4 комментария
Изучать анализ больших или малых данных?

dmshar @dmshar

Не верю, что человек, который "накопил много знаний" может задать вопрос, типа "что изучать, matplotlib, pandas или Hadoop, MapReduce". Может надо не "накапливать", а хотя-бы пытаться понять, что такое "корреляция", а что такое "паттерны проектирования" и в чем между ними принципиальная разница?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как лучше обеспечить защиту приложения при работе с компаниями по разработке приложений?

dmshar @dmshar

1. Занимаются ли такие компании проверкой на уязвимости? - В теории - зависит от серьезности компании. И денег, которые вы готовы вложить в разработку.
2. На каком этапе разработки лучше воспользоваться услугами на проверку на уязвимости - Вопросами безопасности надо озабочиваться с момента решения начать разработку, т.е. с момента составления ТЗ на разработку.
3. услугами на проверку на уязвимости в узконаправленной компании - Всегда полезно сделать дополнительную проверку у независимого аудитора.
4. сколько в среднем это будет стоить - Серьезная проверка серьезного приложения - много. Как можно ответить "в среднем" даже не понимая, что вы там надумали разрабатывать.
5. нужно ли доплачивать за исправление уязвимостей? - Как договоритесь с разработчиком.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какие методы машинного обучения больше подходят для прогнозирования?

dmshar @dmshar

1. Анализ временных рядов.
2. Построение регрессионных моделей.
3. Классификация (всеми известными методами - от метрических и системы опорных векторов до использование деревьев решений, не забываем об использовании ансамблей методов)
4. Кластеризация и метод главных компонент.
5. Все то-же но на основе использования искусственных нейронных сетей.
Все подходят. Только надо понимать что, когда и как.
С порогом - ну это зависит от вашего начального уровня.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как проверить целостность данных с помощью нейронных сетей?

dmshar @dmshar

Может имелось ввиду обнаружение выбросов и аномалий во временных рядах, коими представляются параметры, изменяющиеся во времени? Тогда задача смысл приобретает. Правда с моей точки зрения именно нейросети тут не самое удачное решение, есть другие, более адекватные, но тем не менее, как проект - может и прокатит.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Метод ближайшего соседа?

dmshar @dmshar

При чем тут классификация "по весу, по расстоянию"?
Есть задача классификации - т.е. отнесения некого объекта к одному из заранее заданных классов. Есть много "семейств" алгоритмов классификации, например на основании деревьев, но основании систем опорных векторов и т.д. и в том числе группа методов, основанных на метрическом представлении пространства описания объектов классификации. Упомянутый вами метод ближайших соседей - лишь один из методов последней из группы.
Методы данной группы работают по следующей схеме. Объекты представляются в виде векторов в N-мерном пространстве признаков, причем в этом пространстве должна быть введена некая мета близости/расстояния (что, кстати не во всяком пространстве возможно). Этих мер может быть много: известная и привычная мера Эвклида, Манхеттенское расстояние, мера близости Хемминга, расстояние Чебышева, расстояние Минковского, неметрическое косинусоидальное расстояние и т.д. Выбор конкретной меры - это вообще-то говоря нетривиальная задача, решение которой зависит от шкал данных параметров описания, семантики задачи и даже от конкретного метода классификации, который будет применяться.
Поэтому ответ на ваш вопрос может звучать так - данный метод может применяться везде, где прикладную задачу можно вложить в схему метода метрической классификации. Пример, который наверное все слышали - решение задачи диагностики онкологических заболеваний в система IBM Watson. Другой пример - распознавание вторжений в системах IDS. Предсказание кредитоспособности заемщиков - пример, который тоже у всех "на зубах". Выявление месторождений полезных ископаемых. Чуть не забыл - классика жанра - выявление спама.
Но на самом деле практических задач, которые решены этим способом описаны сотни.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Можно ли по книгам из серии "Математика в техническом университете" изучать математику для ML?

dmshar @dmshar

Математика - она едина. А разные книги просто по-разному ее излагают: разные аргументы, разные стили изложения, немного разная последовательность тем, разные акценты, разная глубина обсуждения конкретных тем и пр. Нет лучших и худших книг (кстати, и видеокурсов - тоже). Разным людям индивидуально может больше подходить стиль одной книги или лектора, другим - другие. Не факт, что если кто-то тут напишет "это суперучебник" то для вас он подойдет. И наоборот, если кто-то скажет "отстой" - то мы не знаем, это книга плохая, или мозги написавшего просто были не способны ее воспринять.
Так что если у вас есть выбор - просто пробуйте. Берете одну книгу, изучаете, смотрите, как "заходит" материал именно в вашу голову. Если все ОК, то и хорошо. Что-то пошло "не так" - пробуем другую книгу.
Если вдруг потом вы обнаружите, что какого-то фрагмента знаний, который вам друг оказался нужным не было в том учебнике, по которому вы учились - а так бывает, и не редко - то вот именно "потом" и "доберете" недостающий материал по каким-то другим источником. Это неприменно будет, но будет сильно "потом".
Другое дело, что самостоятельное изучение, очевидно (по вопросу) - "с нуля", это весьма непростой и тернистый путь. И скажу откровенно, не многие в состоянии его осилить. Но будем считать, что вы из числа этих немногих. Удачи.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Метод опорных векторов как нарисовать гиперплоскость?

dmshar @dmshar

Как-то неясно, в чем суть вопроса.
Метод опорных векторов как раз и имеет результатом прямую (плоскость, гиперплоскость) разделяющую классы объектов. Т.е. прямой ответ на ваш вопрос звучит так: применяете метод опорных векторов, находите параметры разделяющей поверхности ( в двумерном случае - параметры прямой) и если надо - ее рисуете.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как найти работу в машинном обучении новичку?

dmshar @dmshar

Да, Erlang - это не про машинное обучение. Наверное, в ВШЭ вам даже объяснили почему. Так что хотите работы- идите "за рынком", т.е. учите то, что требуют вместе с МL и Big Data.
P.S. А как это вас угораздило начать заход в IT с Erlang/Elixir? Как бы очень нетривиальная калитка.

Ответ написан более трёх лет назад

3 комментария

3 комментария

Самые активные сегодня

Константин
- 3 ответа
- 0 вопросов
Ярослав
- 1 ответ
- 1 вопрос
Pavel Designer
- 2 ответа
- 0 вопросов
rinatoptimus
- 0 ответов
- 2 вопроса
Dupych
- 2 ответа
- 0 вопросов
GotYouGently
- 1 ответ
- 1 вопрос