Ответы пользователя dmshar — Хабр Q&A

Задать вопрос

Ответы

Ликбез в Data science?

dmshar @dmshar

Под вашим (как и любым другим вопросом на этом сайте) есть специальная секция "ПОХОЖИЕ ВОПРОСЫ". Вот внимательно их штудируете на глубину примерно три-четыре года - это и будет вам лучший ликбез. И другим повторять по тридцатому разу одно и то-же не придется. А ответы на все ваши вопросы там точно есть.

Ответ написан более трёх лет назад

Комментировать

Комментировать
С чего начать изучение анализа данных python?

dmshar @dmshar

Давайте с конца в начало.
"Если самостоятельно, то с чего начать изучение?" - тут все понятно и однозначно. Если хотите учиться самостоятельно, то начинать надо, естественно с обучения самостоятельному поиску нужной информации в сети. Хотя-бы с помощью Гуугла. А затем - самостоятельному принятию решений.

"стоит ли тратить такие большие деньги, или же лучше начать изучение самостоятельно" - вообще-то что бы стать специалистом, надо потратить очень много времени. Правило 1000 часов никто не отменял. Особенно в таком "мозгоёмком" направлении как Data Science. Вон люди ведут дискуссии на тему - необходим-ли уровень phD, что-бы считать себя специалистом по анализу данных, или достаточно магистерского уровня по профильной специальности. Поэтому обязательно включите в список рассматриваемых альтернатив "получение высшего образования". И возможно это должен быть первым вариантом. А уж если по каким-то причинам не получиться - то переходить к следующим.

"цены начинаются от 60 тысяч рублей." - вообще-то весьма гуманно. Вы же, когда станите специалистом, за бесплатно работать не захотите. Вот и люди тоже хотят. Тут надо смотреть не на ценник, а на то, кто и что вам будет рассказывать. Если вчерашний студент или человкек без опыта (кстати, как профессионального, так и методического) - то я бы не платил. А если это люди с известными именами, известные лекторы, известные разработчики (действительно известные и авторитетные, а не те, кто себя такими считает) - то цена за возможность лично задать вопрос, лично у него чему-нибудь научиться - весьма адекватна. Так что тут надо смотреть внимательно.

Ну и еще одно - хотите специализироваться в Аналитике данных (и в программировании, кстати, тоже) - не забудьте об английском.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Почему не рисуется гистограмма?

dmshar @dmshar

Не знаю, вы же нам ничего не рассказали ни о себе, ни о IDE, которую используете, ни о версии Python, ни об ошибках/сообщениях, которые получаете. Может у вас seaborn не установлен, магическая команда %matplotlib не верно задана или вы вообще в консоле работаете.
А ваш график - на рисунке (прямо скопировал ваш скрипт себе в редактор и запустил)

Ответ написан более трёх лет назад

7 комментариев

7 комментариев
Как правильно спроектировать приложение по распознаванию лиц?

dmshar @dmshar

Мне очень понравился вопрос.
Ну действительно. Человек только-только (месяц) как начал разбираться в машинном обучении (у других что-бы понять что к чему годы уходят) и хочет сразу же создать весьма нетривиальное приложение, потому что "проще учиться разбирая что-то сложное" (теоретически верно, при условии, что есть необходимая база знаний, упорство и умение самостоятельно учиться) . При этом - в общем-то не хочет разбираться что и как работает, но и взять готовую библиотеку и разобраться хотя-бы в ней - ни-ни, "что бы лучше самой понять". Весьма похвально, правда не совсем ясно, как это сделать без глубокого понимания предмета, то то такое.
Однако при этом найти в интернете описания решения своей и подобной ей задачи (коих - описаний - в интернете пруд пруди, включая и библиотеки и "планы разработки" ) - тоже самостоятельно или не может или не хочет. И апофеоз - "а опишите мне тут на форуме, "что-то важное по теме", естественно желательно коротко и понятно.
Занавес.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как разделить список чисел на группы по заданному расстоянию между числами в группе?

dmshar @dmshar

Никакой "математики" тут нет. Впрочем, как и кластерного анализа. Все тривиально просто. Если все именно так, как вы описали, то вы собственно уже сами и описали ваш алгоритм. Правда опустив первый его шаг - предварительную сортировку.
Итак:
1. Сортируем имеющиеся данные.
2. Начинаем просмотр (не важно с какого -верхнего или нижнего) крайнего члена последовательности и сравниваем следующий элемент последовательности с границей вашего интервала (кстати - в вопросе, наверное, ошибка, и Х у вас не 5, а 0.05). Соответственно, включаем его в первую группу, или "закрываем" первую группу и переходим к формированию второй. Повторяем это действие циклически перебирая последовательно все элементы нашего отсортированного набора.

Если попытаться обойтись без предварительной сортировки - что в принципе тоже не очень сложно - то надо аккуратно посмотреть, не увеличится-ли при этом вычислительная сложность (на вскидку я в этом не уверен).

Ответ написан более трёх лет назад

3 комментария

3 комментария
ИИ, Нейронные сети, ML – для школьника?

dmshar @dmshar

Начинать самообучение по Data Science (как впрочем и по любой другой серьезной теме) необходимо с того, что-бы научиться САМОСТОЯТЕЛЬНО(!!!!!) искать нужную информацию в интернет.
Не пойму, неужели проще создавать новую тему, писать вопрос, ждать ответа, потом отбирать из них стоящие и отсеивать шлак, чем просто взять и просмотреть этот же форум хотя-бы за последний месяц и найти десяток готовых ответов.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Автоматизация подбора тегов к статье, как?

dmshar @dmshar

Существуют.
Кажется первопроходцем был Reuters. Решение основано на использовании методов машинного обучения. Сначала на соответствующем наборе размеченных статей строиться некоторый классификатор. Затем он используется для отнесения новых статей к той или иной рубрике или рубрикам, что в точности соответствует задаче тегирования.
Ну вот, на вскидку, просто как пример:
https://towardsdatascience.com/applying-machine-le...
Elaslic тут очень далеко - только как хранилище информации.
Кстати, Reuters хвастался что он на внедрении этого метода экономит миллионы, в основном на зарплате разогнанного отдела почти на сотню сотрудников, которые ранее там тегировали новости вручную.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какие разделы математики нужны для машинного обучения?

dmshar @dmshar

Хочу немного уточнить.
Вы пишете "Я знаю какие разделы математики нужны для ML." Это отлично, потому как большинство аналогичных вопросов, на этом сайте идут от людей, которые даже не дали себе труда поискать ответ самостоятельно в Google. Или хотя-бы на
https://qna.habr.com И писать тут ответ в стодвадцатьвосьмой раз - утомительно. Вы дали себе такой труд , т.е. вы внимательно просмотрели список хотя-бы из десятка ответов на этот вопрос, проанализировали их, понимаете какие темы там открыты и для чего они нужны. Это здорово.
Вот непонятен только ваш вопрос " стоит ли учить все? " . Почему прочитав эти источники вы пришли к выводу, что люди их писавшие, делали это с целью усложнить вам жизнь и накидать в свои ответы что-то, что вам не понадобиться.
Теперь-же вы хотите, что-бы кто-то из этих ответов отобрал вам "минимум для этого". Т.е. - по сути дал еще один ответ на ваш вопрос, который должен сокращать то, что уже хорошо продумав написали другие?
А давайте наоборот - вы задаете вопрос, а мы вам отвечаем, нужна-ли например линейная алгебра или статистика для вас. Это будет честно - вы покажете, что действительно понимаете о чем речь, мы вам объясним, в каком месте ML и для чего это применяется. А вы уж сами будете решать, на вашей конкретной работе, ту, которую вы уже нашли, будут встречаться эти задачи или нет. И не выгонят-ли вас за то, что кто-то насоветовал вам, что например, знание законов распределения вам не нужно. Мы ведь этого не знаем.
Ну и кроме того, учтите, что каждый отвечающий смотрит на ваш вопрос с точки зрения собственного опыта. На сколько этот взгляд верен, т.е. на сколько можно верить советам, которые тут прозвучат - вопрос очень сложный. Если кто-то например, в свей практике обошелся без понимания того, что такое оптимизация, можно ли считать, что этот раздел не нужен?
P.S. Ну и сильно смутило вот это "Математику не помню с времен учебы". - от студента 3-го курса специальности "информационные системы".

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как лучше защищать запросы?

dmshar @dmshar

Правильно.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как называется договор?

dmshar @dmshar

"документа, в котором якобы власть от государств переходит к IT корпорациям"
Господи помилуй......
1. "Вла́сть — это возможность навязать свою волю другим людям, даже вопреки их сопротивлению". Как можно "возможность" передать "договором"? Тем более "возможность" осуществляемую помимо воли?
2. В каком виде и каким способом получившие власть IT-корпорации будут ее применять? Ну например - осуществлять функции социальной защиты населения или обеспечения населения или культурно-воспитательную функцию?
3. Договор обычно имеет так называемые "стороны договора". Которые этот договор подписывают. Как вы думаете, кто может быть стороной такого договора с одной и с другой стороны.
4. "IT-корпорациям" - это как-то круто звучит. Каким именно? Первым десяти из
индекса Dow-Jones? Американским или японским? А что про это думают корейцы и прочие китайцы? Они все получат власть, или через одного? И от какого государства получать власть будут мультинациональные корпорации?
5. Как вообще можно себе представить государство, которое добровольно передает власть?
6. Почему именно "IT-корпорациям"? Почему не Электрогенерирующим компаниям например? Уж если они захотят - то отключив от света могут ввергнуть мир в полный коллапс. IT-корпорации на это не способны. А еще круче - Аграрным. Если перестать кормить народ (совсем-совсем) - то через пару недель, максимум месяцев подпишут все что угодно. Впрочем, в современном мире достаточно даже отказаться мусор вывозить в глобальных масштабах, чтобы коллапс настал очень быстро. Так что думаю, получившим власть IT-корпорациям ой как не просто будет договориться с обиженным безвластием ассенизаторами.
7. Причем тут "BLOCKCHAIN" (Блокче́йн — выстроенная по определённым правилам непрерывная последовательная цепочка блоков (связный список), содержащих информацию.

В общем "на T начинается" приходит на ум только одно "Тарабарщина".
Все-таки перед тем, как задавать вопрос неплохо сначала самому немного подумать над его ответом. И да, меньше смотреть фантастически-бредовых фильмов-сказок для младших школьников.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Нейросети для анализа логов?

dmshar @dmshar

Как вам уже ответили , "любой" - нельзя. Отдельных видов - вполне можно. И, ксати, не только логи при этом анализируются. Только вот в одном посте на форуме об этом не расскажешь.
Тут как минимум пересекаются две области знаний - машинное обучение (и нейросети, как один из инструментов, применяемых в ней) и кибербезопасность. Что бы разобраться и в том и в другом надо потратить не одну сотню (!) часов.
Есть уйма литературы на эту тему, поэтому почему вам удалось найти только " несколько коротких статей и видео" абсолютно непонятно.
Начните, например, вот с этих статей:
D. Berman, A Survey of Deep Learning Methods for Cyber Security
V. Rao Vemuri. Machine learning in computer security
Monowar H. Bhuyan,. Network Anomaly Detection: Methods, Systems and Tools

А делее можно переходить и до более серьезным источникам:
1. Leigh Metcalf, William Casey. Cybersecurity and Applied Mathematics
2. Iván Carrascosa et.al. Data Analytics and Decision Support for Cybersecurity Trends,
Methodologies and Applications.
3. Big Data Analytics in Cybersecurity. Edited by Onur Savas and Julia Deng
4. Brij B. Gupta. Machine Learning for Computer and Cyber Security Principles, Algorithms, and Practices
5. Nour Moustafa, Designing an online and reliable statistical anomaly detection framework for dealing with large high-speed network traffic
6. Joshua Saxe, MALWARE DATA SCIENCE Attack Detection and Attribution
........... и т.д. - в общем источников масса.
И все легко ищется в сети. Удачи

Ответ написан более трёх лет назад

Комментировать

Комментировать
Имеют ли понятия остаточное и нулевое отклонение смысл при рассмотрении классификатора, отличного от линейной регрессии?

dmshar @dmshar

Выскажу свое мнение. Указанные показатели характеризуют не метод, а результат. Т.е все равно, каким методом вы строите свою модель, их назначение оценить насколько построенная модель "хороша".
С другой стороны, данные метрики имеют семантический смысл в случае решения задач регрессионного типа. Для задач классификации - когда зависимый признак измерен в шкале более слабой, чем интервальная, - использование данных показателей смысла лишено . Там уже работают критерии на основе таблиц сопряженности Пирсона.
Таким образом, мой ответ на ваш вопрос - если с помощью нейросети или случайного леса вы решаете задачу регрессии - а это вполне возможно - то использование указанных метрик допустимо. В противном случае - нет.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Какой из двух языков лучше выбрать для приложения типа помощник: Python или C++?

dmshar @dmshar

Я знаю язык программирования Python и основы C++ (а ещё знаю базы данных MySQL).
- неправда, не знаете. Максимум - прочитали пол книжки и написали пол десятка учебных программулек. Если бы действительно знали - вопросов "что лучше" не задавали-бы.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
С чего начать изучать машинное обучение?

dmshar @dmshar

С чего начать изучать машинное обучение?

С того, что-бы открыть Google и ввести " машинное обучение, с чего начать". На первой-же странице ответов находим:
- ссылки на пол десятка статей-ответов на данный вопрос
- несколько ссылок на списки литературы, видеокурсов, онлайн курсов и просто сайтов, содержащих подробнейшие аннотации всего. Берите и выбирайте то, что вам по вкусу, интересам, имеющейся математической базы.
- ссылки на насколько научно-популярных порталов, посвященных машинному обучению.
- и - вот неодижанность - ссылка на Википедию, в которой есть чудесный "вводный курс" по теме и десятки - если не сотни- ссылок для углубления понимания.
Вообще информации столько, что впору задавать вопрос - что НЕ использовать, а не где найти информацию по МL.

понимая, что php не совсем подходящий для этого язык, поэтому думаю сконцентрироваться на изучении node.js
- ну, это тоже явно не то, что используется в области AI и ML. Но тут язык - это последний вопрос, какой надо решать. Потому как даже на PHP и JS уже есть библиотеки. Правда - не очень мощные, но это такое.

Мне бы хотелось реализовать похожу модель на основе чисел и даты к которым они относятся. Т.е. всего два вида передаваемой информации - число и дата, но выборка достаточно большая.
Эта задача из раздела статистики, который называется "анализ временнЫх рядов". Существует уже почти сто лет, и решается десятком разных методов. От линейной регрессии до LSTM-сетей. И начинать надо не с CatBoost или других новомодных инструментов, а с того, что-бы ознакомится с базой, набраться понимания того, как это все работает и главное - почему. А уж потом каким методом реализовывать ваш прогноз - определитесь играючи.

На какую библиотеку обратить внимание?
- Господи, да не на библиотеки надо внимание обращать, а на алгоритмы и методы. А библиотека - это только лишь технический инструмент их реализации. Начинать с библиотеки - это как врачу-хирургу начнать обучение с выбора модели скальпеля, которым он будет оперировать.

Ну и на последок - вот вам пару ссылок, что-бы далеко не ходить - прямо на темы этого же сайта, где аналогичный вопрос задавался несчетное количество раз. Читайте, думайте.
Путь data science. Как будет правильнее?
С чего начать изучение искусственного интеллекта?
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
Какие есть книги по нейронным сетям и ИИ?
Путь data science. Как будет правильнее?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Распознавание образов с окна игры?

dmshar @dmshar

1. Если современные средства ИИ позволяют не то что монстров отслеживать, а куриц, перебегающих дорогу перед автомобилем объезжать, то ответ на вопрос "можно или нет отслеживать и манипулировать мышкой" - понятен и однозначен. Можно.
2. Возможно реализовать на чем угодно, и на С# и на Python, и на Java и на GO и на Julia.

Вот только рассчитывать на то, что вы это сделаете дома на коленке - что на Python, что на С - явно не стоит.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Где у меня ошибка в обучения нейронной сети?

dmshar @dmshar

Ну как где? Вестимо в коде программы, которую мы не видим.
P.S. Только пожалуйста, не надо сюда вываливать ваш код. А тем более - контрольные данные.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как подать данные в нейронку?

dmshar @dmshar

Что вы не можете понять - как из списка в девять элементов сделать два списка по шесть и три?
X_input = X[0:6]
X_output = X[6:]

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как посчитать кол-во возможных исходов?

dmshar @dmshar

Ответ - 10.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Алгоритм Finger search?

dmshar @dmshar

Как это не смогли найти? А где искали?
Ну вот первые-же ссылки с Гуугла:
https://en.wikipedia.org/wiki/Finger_search
https://www.leda-tutorial.org/en/unofficial/ch03s0...
https://www.freecodecamp.org/news/search-algorithm... - тут даже с кодами примеров.
Что не так?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Нужно ли высшее образование для получения работы в data science или достаточно самообразования с помощью он-лайн курсов и книг?

dmshar @dmshar

Все зависит, от чего вы отталкиваетесь. Если есть хорошая (не средняя, а именно хорошая и грубокая) подготовка по вышке в хорощем техническом вузе, желательно на ИТ-специальности - тогда начать осваивать DS можно и самому. Вопрос - хватит-ли у вас времени и усердия. Потому как в отличии от изучения тех-же языков программирования тут за пару месяцев - точно не управитесь.

Ответ написан более трёх лет назад

2 комментария

2 комментария

Самые активные сегодня

Rsa97
- 3 ответа
- 0 вопросов
HellWalk
- 1 ответ
- 1 вопрос
evomed
- 1 ответ
- 1 вопрос
Drno
- 2 ответа
- 0 вопросов
edik1
- 0 ответов
- 1 вопрос
Станислав
- 0 ответов
- 1 вопрос