Ответы пользователя dmshar — Хабр Q&A

Задать вопрос

Ответы

Как развить гуманитарный ум\подход(энтропию) для лучших результатов в дата саенс?

dmshar @dmshar

Не очень понятно. Вас интересует "как развивать" или "как применять". Это как бы разные вещи.
Прежде чем ЖДАТЬ ОТВЕТА на вопрос "как применять?" попробуйте САМИ дать ответ на вопрос - "а зачем?"
А развивать понятно как - "думать" (ну, или если школьник/студент - то "учиться И думать"). Или вы верите что есть какие-то специальные таблетки (заклинания, упражнения) для развития ума?
P.S. Кстати, начать рекомендую с выяснения того, что означает слово "энтропия".
P.P.S. И еще раз "кстати" - "как развивать матаппрат" вы уже для себя, надеюсь, выяснили:
( Как развить мат. аппарат до минимального уровня для машинного обучения и дата саенс? ) ?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Есть ли marketplace Для продажи своих решений в области Machine learning?

dmshar @dmshar

Если "для бизнеса" - то там фиолетово, каким образом (методом, софтом) ты решил их задачу. Поэтому они для своей задачи готовы купить любой софт ее решающую (т.е пойти на площадку, подобную указанной вами). Замечу - готовое, завершенное решение!
А вот метод - он интересует исключительно специалистов по Data Science, а не бизнес. Методы- кстати - не патентуются, и соответственно - не продаются. Хотие утвердить свое первенство в изобретении метода - публикуете соответствующую научную статью.
И никто за метод (читай - идею) платить денег не будет.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Верна ли предлагаемая структура нейронной сети?

dmshar @dmshar

Задам вопрос - а зачем вам нейронная сеть? Дело в том, что ваша задача КЛАССИЧЕСКАЯ задача классификации, к которой сводятся практически все задачи медицинской диагностики до знаменитого IBM Watson включительно.
Нейронная сеть в реалии нужна тогда, когда классические методы не работают, ну например, при очень сложных и запутанных связях между входными параметрами (как в распознавании визуальных образов или в распознавании смысла текста), причем еще одно важнейшее условие - наличие реально очень-очень-очень-очень большого количества входных данных (от десятков тысяч до миллионов). И только при этих условиях НС способны дать хоть какой-то выигрыш по точности, по сравнении с классикой. Первого в вашем случае точно нет, а второе - очень вероятно, что нет.
Кроме того, напомню, что в медицине никто и никогда не примет результат вашего исследования, если вы не будете способны его интерпретировать (термин "доказательная медицина" надеюсь, вам знаком, как и ее основные требования). НС этим свойством не обладают, классические алгоритмы - обладают.
Так приведите хоть один аргумент - кроме моды - в пользу НС.
Если же все таки примете решение применять традиционные алгоритмы машинного обучения - можно будет думать и обсуждать, какого класса алгоритмы лучше применить и как его реализовать.
Удачи.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Как завести кампанию в GoFoundme на стартап?

dmshar @dmshar

Ну, если внимательно прочитать, что можно найти
your campaign must be created in one of the following countries.
"Завести счет в банке" и "создать компанию" - это как бы разные вещи. Вы хотите начать сотрудничество с инвестором с подачи недостоверной информации?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Математика для Теории вероятностей и нейронных сетех?

dmshar @dmshar

А что, просто посмотреть хотя-бы сам Тостер - непосильная задача?
Сдедаю это за вас.
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
Список литературы(или курсов) МАТЕМАТИКИ для Data Scientist?
Можно ли по книгам из серии «Математика в техническом университете» изучать математику для ML?
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?
Хватит? Так это я еще в Гуугл не залез с вашим вопросом.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как можно сгенерировать текст, который будет написан "человеком"?

dmshar @dmshar

Не очень понятен ваш вопрос, но если на входе "текст (символы)" а на выходе - картинка, то это ничем не отличается от того, что сегодня делает любой драйвер монитора - на вход принимает код символа, на выходе генерирует картинку в виде набора пикселей определенного цвета. И никакой магии. Если хотите, что-бы "не может одинаково написать одну и ту же букву", то достаточно добавить перед генерацией стандартных символов некоторые искажения и шум.
Или вы что-то другое имели ввиду?

Ответ написан более трёх лет назад

2 комментария

2 комментария
Каковы основы теории распознавая образов? Смежные теории?

dmshar @dmshar

Дело в том, что название "теория распознавания образов" впервые в русскоязычной научной литературе появилось в 60-70-ых годах прошлого столетия как очень неудачный перевод английского "Pattern recognition". И под этой теорией подразумевалось то, что сегодня подразумевается под Machine Learning - т.е. наука, которая занимается методами извлечения скрытых паттернов (шаблонов) - статических или динамических - в данных. Соответственно если вас интересует именно методы построения "интеллектуальных систем" (хотя мне очень не нравиться этот термин)- стоит смотреть в этом направлении, включая Data Mining, ANN, Deep Learning и т.д.
С другой стороны, сегодня, когда говорят о "распознавании образов" очень часто имеют ввиду распознавание визуальных образов - обнаружение лиц на фотографиях, распознавание изображений на картинках, распознавание рукописного текста и производные от этих задач. Замечу, что часто (вернее - как правило) для решения этих задач используются методы и средства из абзаца выше. Однако я не уверен, что системы этого класса можно отнести к "интеллектуальным" - т.к. как правило они решают одну, специальную задачи и интеллекта там ровно столько, сколько и в любом современном численном методе решения математических задач.
Я не привожу названий конкретных книг ни по первой ни по второй теме - их огромное множество. У каждого советующего - свои "лучшие" книги. Даже на тостере десятки тем, где такие книги можно найти. Но надеюсь что мой пост поможет вам более четко определится, что-же именно вас интересует и дальше целенаправленно искать в нужном направлении понимая, куда и зачем вы идете.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Существует ли кроссплатформенный софт для подписи\наложения изображения?

dmshar @dmshar

Что-то задумался.
А что, тривиальное наложение слоев в Photoshop (на одном фото, на другом - подпись) - не подходит?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Библиотека для обработки изображений, что выбрать?

dmshar @dmshar

OpenCV (https://opencv.org/)
Реализована на C/C++, поддерживается работа с Python, Java, Ruby, Matlab, Lua, PHP и пр.
Универсальная библиотека работы с изображениями с открытым исходным кодом. Номер 1 по распространенности.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какие темы в математике необходимо знать, чтобы начать изучать машинное обучение?

dmshar @dmshar

Для того, что-бы начать заниматься машинным обучением надо в первую очередь научиться работать с информацией. Не с информацией вообще, а с САМОСТОЯТЕЛЬНЫМ (!!!!) поиском ответов на интересующие вас вопросы, а не беспомощным вопрошанием на форуме, "с чего начать", "что мне учить", - потом будет "а в каком порядке", потом - "по каким книгам", потом - "как быстро".... Эта тема постоянно обсасывается на Medium, на AnalyticsVidhya, на DataScienceCentral, на KDnuggets, на cyberforum.ru, на десятках других формуах. А есть еще StackOverflow, есть другие сайты.Посмотрите - прежде чем задавать такие детские вопросы - хотя-бы - сам Тостер. Тут десятки если не сотни аналогичных вопросов с ответами. Почем у вы решили, что полезнее задать вопрос в сто первый раз, чем один раз самому поискать и найти ответы?
Ну, если вас там в Atlanta_Boston вдруг отключили от Гуугл, то сделаю это за вас:
https://proglib.io/p/learn-data/
https://ru.stackoverflow.com/questions/678970/Книг...
https://dev.by/news/kak-izuchit-data-science
Очередной вопрос по ИИ и математике: какие темы надо знать?
Очередной вопрос о том как начать в машинное обучение. Как начать, чтобы понять интересно ли мне этим заниматься или нет?
Какие книги для начинающего по Data Science?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как запустить Нейросеть с большими объемами инф?

dmshar @dmshar

1. Различие в объеме между 2 ГБ и "несколькими терабайтами" - очень немаленькая. Вы уверены, что терабайтные объемы будут вами достигнуты в обозримом будущем?
2. В фаловой системе NTFS теоретический размер файла может быть до 32 эксабайт. Практически - немного меньше, но думаю, вам должно хватить.
3. Глупо или не глупо держать в файле зависит не от объема информации, а от того, что вы хотите с ней делать. Если просто хранить в нужном формате а потом скармливать своей нейронке, то переход к любой БД вам ничего не даст, кроме замедления работы и УВЕЛИЧЕНИЯ расхода ресурсов.
4. Если вы перейдете к БД, то у вас два пути. Либо перед загрузкой в нейронку переформатировать ваши данные - возможно не все сразу, а по частям - в формат, воспринимаемый нейронкой. Либо писать свой код работы с БД, и имплементировать его в используемую библиотеку (благо много нейронок имеют его в виде Open Source). Варианты не сильно отличаются друг от друга по сложности.
5. "Не хватит оперативки" - это если вы используете алгоритм класса "in memory". Надо искать (или писать нейронку), которая лишена этого недостатка. Такие вопросы можно гууглить по ключевому слову "Streaming algorithm".
5. Если действительно вдруг вы выскочите в область Big Data c необходимостью работы в потоковом режиме(пока вы явно не там) - то придется посмотреть в область Hadoop и Spark. Но это - совсем другая история.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Нейронная сеть. Как предсказать победу одной из трех команд?

dmshar @dmshar

Задача предсказания победителя в матче ничем не отличается от задачи классификации животного. Только в спортивной задаче объектом классификации выступает "матч" который включает описание команд, в нем принявших участие. Результат классификации - соответственно не "кошки"/"собачки", а "победа команды 1"/ "победа команды 2".
Соответствующие "готовые реализации" есть и в Python, и в R, да и в практической любой библиотеке по Machine Learning.

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
Подходящий фреймвок для нейросети?

dmshar @dmshar

Зачем вам аж целая нейронная сеть, когда задача предсказания одномерного временного ряда прекрасно решалась и решается методами классического анализа этих самых временных рядов и описана в любой книге по Machine Learning (и разумеется - в любом университетском курсе анализа временных рядов - уже лет эдак 50).
Типичный набор инструментов - базовый python + пакет scikit-learn. При острой необходимости - расширяем пакетами statsmodel и pandas. При необходимости вывода графики - matplotlib и/или seaborn. Покроет практически все мыслимые и немыслимые потребности в решении вашей задачи.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какой используется метод для обнаружения аномалии в случайной последовательности?

dmshar @dmshar

Эх, поздно увидел вопрос - не тот тег вы ему дали.
Тут уже напридумывали-насоветовали такого.... В то время, как задача у вас абсолютно классическая, хорошо изученная, описанная и даже в учебники включенная. Другое дело, что и методов ее решения много - в зависимости от особенностей данных с которыми вы работаете.
Называется то, что вы хотите сделать - "поиск аномалий во временных рядах". По этой фразе гуглится легко. Для входа в тему можно начать, например, вот отсюда:
https://dyakonov.org/2017/04/19/поиск-аномалий-ano...
или вот отсюда
https://www.datascience.com/learn-data-science/fun...
Есть и более серьезные описания. Если заинтересует - подскажу.
P.S. Забыл сказать - правильные теги для вашего вопроса - "Машинное обучение", "Data science", "Математическая статистика", "Data mining", ну, может еще с большой натяжкой - "Нейронные сети".

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как подобрать 5 рандомных чисел если есть только срерднеарифметическое этих чисел?

dmshar @dmshar

Извините, но вынужден вставить ложку дегтя в вашу бочку меда.
Дело в том, что операция "восстановления по среднему" - абсолютно бессмысленна семантически. Т.е. "восстановленные" данные нельзя использовать ни для какого анализа. Категорически и абсольютно.
Другими словами, реальные "прошлые" данные с которыми можно работать и извлекать из них осмысленную информацию - ну например, смотреть, как они изменяются во времени - как было среднее, так и осталось. Все восстановленные данные для такого - и никакого другого анализа - не годятся. Любая такая попытка - явная фальсификация.
Тогда вопрос - а зачем их "восстанавливать"? Честнее просто указать -"данные недоступны".

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какой минимальный уровень знаний для работы в анализе данных/ML?

dmshar @dmshar

Вариантов ответов на ваш вопрос - огромное множество. Но если информация аж трехлетней давности для вас - устарела (хотя я не понимаю, как могут устаревать базовые, фундаментальные знания . Да и более свежих версий на Тостере - навалом. Ну да ладно) , то вот вам новейшее изыскание на заданную тему
https://dev.by/news/kak-izuchit-data-science

Ответ написан более трёх лет назад

Комментировать

Комментировать
Существуют ли актуальные ресурсы, которые сравнивают различные нейросети в плане "качества"?

dmshar @dmshar

Сравнивать можно не на "задачах одного типа", а на решение определенной задачи на конкретном наборе данных. Чем, собственно, kaggle и занимается. А универсального ответа на поставленный вопрос не существует.
А вообще-то машинное обучение многие воспринимают как "взять готовое решение -> применить _> получить суперрезультат". На самом деле это всегда глубокое исследование и профессиональный анализ.
Как пример, могу привести анализ применимости и эффективности различных методов предсказания во временных рядах (одна из самых известных и актуальных задач) . Вроде - все ясно. Однако попытайтесь разобраться в результатах без серьезного предварительного изучения теории :-)
https://journals.plos.org/plosone/article/file?id=...

Ответ написан более трёх лет назад

5 комментариев

5 комментариев
Техники и методы анализа преобразованных данных?

dmshar @dmshar

Выбор метода анализа данных зависит от целей, которые ставит перед собой исследователь - в первую очередь.
На столь общий вопрос - "максимально, и в полном объеме распознать скрытые закономерности и зависимости в табличных данных" - можно дать только общий ответ - любыми методами регрессионного, классификационного, кластерного, факторного анализа.
"Готовые тесты" - наверное имеется ввиду "библиотеки для анализа данных". При ваших небольших объемах данных - также могут подойти любые. От EXCEL или SPSS scikit-learn, до scikit-learn или любых библиотек на основе искусственных нейронных сетей.
В общем - хотите конкретных ответов - детализируйте вопрос.

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
Как выбрать ML фреймворк для прода?

dmshar @dmshar

Ух какой общеабстрактный вопрос. И странно, что после "достаточно долгого углубления" так и не решить, на чем лучше обучать сеть на 20 нейронов.
Сравнение различных фреймворков (языков программирования, операционных систем, систем управления базами данных и пр....) - сродни религиозным войнам: есть адепты каждой из религий, которые по-сути только ее и знают. Есть те кто свято верит в то, что написано во всяких катехизисах, обзорах, сравнениях. Есть свои последователи, проповедники, энтузиасты, отступники. Есть тихие верующие и разработчики, спокойно пишущие на том, что им велели свыше. Только вот правых и неправых в таких войнах нет. Ибо нет "лучшего фреймоврка" и поиск его - бессмысленен. А опыт одних в условиях работы других может оказаться мягко говоря - неприменим.
Ну, если очень надо - можно легко найти сравнения разных инструментов, например
https://www.netguru.co/blog/deep-learning-framewor...
https://medium.com/the-mission/8-best-deep-learnin...
https://www.datanyze.com/market-share/machine-lear...
Только вот слава Богу инженерия - не религия. Тут за то, что ты меняешь один инструмент на другой - на костре не жгут. Можно потратить уйму энергии, выбирая "лучший фреймоворк" и все равно где-то не угадать. А можно начать делать свой проект на том, что знаешь, понимаешь, владеешь. Гордится тем, что ты научился молотком гвозди забивать и не отбивать себе при этом пальцы, а не тем, что держишь в руке что молоток фирмы Steanly, а не молоток фирмы Тоptul. А потом уже конкретно выяснять, в чем-же твой инструмент оказался слаб именно для твоей задачи, и уже целенаправленно, а не абстрактно искать лучший по конкретному показателю.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Анализ крови с использованием нейронных сетей?

dmshar @dmshar

Для того, что-бы распознать лишь "норма, средний воспалительный процесс, высокий воспалительный процесс" - как вам уже тут верно заметили- не то что нейронные сети - вообще никакого ML не надо, достаточно трех-четырех правил, который любой студент-медик должен знать наизусть примерно на втором курсе.
В реальной жизни задачи медицинской диагностики методами машинного обучения возникают тогда, когда традиционными, медицинскими методами задача решается крайне сложно и/или неточно. Ну например - по результатам лабораторных анализов выявляют те или иные виды онкозаболеваний, по результатам мониторинга - предсказывают риск возникновения инфарктов/инсультов в ближайшем будущем. По результатам анализа генетического материала - предрасположенность (риск) заболеваемости определенными видами болезней или реакции не определенные медикаменты, по информации о состоянии организма и региона проживания - вероятность подхватить определенные инфекции и соответственно - необходимость профилактического лечения и т.д. Про диагностирование по анализу рентгеновский снимков, УЗИ и пр - я тут не говорю, хотя вот там действительно огромный простор для применения нейросетей.
И по анализу крови - задачи, которые реально решаются - посложнее, чем "есть-нет воспаление". Ну, например - определение возраста человека:
https://habr.com/company/spbifmo/blog/350624/
или распознавание диабета и его разновидностей:
https://datascienceplus.com/machine-learning-for-d...
Только вот надеяться, что даже простейшую задачу такого класса можно решить не имея в команде специалистов с медицинским образованием - крайне самонадеяно.

Ответ написан более трёх лет назад

Комментировать

Комментировать

Самые активные сегодня

Константин
- 3 ответа
- 0 вопросов
Ярослав
- 1 ответ
- 1 вопрос
Pavel Designer
- 2 ответа
- 0 вопросов
rinatoptimus
- 0 ответов
- 2 вопроса
Dupych
- 2 ответа
- 0 вопросов
GotYouGently
- 1 ответ
- 1 вопрос