Ответы пользователя dmshar — Хабр Q&A

Задать вопрос

Ответы

Как выбрать данные для классификации случайным лесом?

dmshar @dmshar

А вы точно изучали теорию?
Задачи классификации (все, независимо от метода) - на вход принимают РАЗМЕЧЕННЫЙ набор данных по которым строят классификатор, а вашем случае - дерево или лес. Потом полученный классификатор используется для отнесения вновь поступающих данных к одному из классов.
"Самостоятельное" ( в вашей трактовке) разбиение на классы - это уже другая задача - кластеризаця.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как получить цвет пикселя?

dmshar @dmshar

https://www.youtube.com/watch?v=58ktco1LGm4
А дальше - самостоятельно!

Ответ написан более трёх лет назад

Комментировать

Комментировать
Можно ли оценить относительную важность признаков?

dmshar @dmshar

Надеюсь, такое понятие, как "корреляция" вам известно. При этом корреляция бывает не только классической, Пирсоновской, измеряемой на количественных данных, но и специальной, приспособленной для работы с ранговыми данными (корреляции Кенделла, Спирмана), с номинальными данными, с дихотомическими данными и с их комбинациями.
Таким образом, для вашего примера можно формально определить, что, например, в группе мужчин с бинарным признаком "купил/не купил" больше коррелирует номинальный признак "материал" чем номинальный признак "цвет", а в группе женщин - наоборот.
Задача достаточно известная и неплохо описанная в любом курсе современного статистического анализа.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как классифицировать новость с помощью машинного обучения?

dmshar @dmshar

Меня всегда интересовало - люди начинают заниматься такими вопросами из соображений простого любопытства или им дают такое задание по работе? Если первое - то почему сразу за советами в форум, а не элементарный поиск в интернет или чтение учебника. Если второе - то почему не объяснить работодателю, что вы не специалист в теме?
А информации не самом деле уйма - книги, веб ресурсы, курсов, любой учебник по машинному обучению содержит соответствующий раздел или как минимум пример.

https://www.slideshare.net/compscicenter/-32801202
https://www.youtube.com/watch?v=hULD4jS5DEc
https://towardsdatascience.com/text-classification...
xplordat.com/2018/12/14/want-to-cluster-text-try-c...
https://www.analyticsvidhya.com/blog/2018/11/tutor...
https://habr.com/post/346206/
https://nlpub.ru/

Ответ написан более трёх лет назад

Комментировать

Комментировать
Можете помочь с идеей проекта?

dmshar @dmshar

А причем тут стартап? Тема уже изучена и пользуется вдоль и поперек. Про рекомендательные системы что-то слыхали? От рекомендаций покупок или просмотров фильмов до подбора меню в ресторане, выбора маршрутов поездок, профессии, метода лечения и пр. Все они основаны на обнаружении "похожести" характеров, вкусов, настроений, физических состояний людей между собой и на последующем принятии решений по типу "если это нравиться Х, то человек, на него похожий в указанном смысле тоже будет в этом заинтересован".
Это одно из возможных применений современного машинного обучения.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какой алгоритм сжатия данных использовать при архивации лог файлов?

dmshar @dmshar

Если это реальная задача - то бессмысленно что-то писать самому. Берете готовые, проверяете их на реально имеющихся лог-файлах, сравниваете,делаете выводы, лучший запускаете в продакшн.
Если это учебная задача - просто научиться реализовывать архиваторы - то изучаете существующие алгоритмы и реализуете любой из них. Все равно, ваша учебная реализация будет хуже, чем имеющиеся коммерческие. Поэтому сравнивать их никто в здравом уме не будет.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Проверка гипотезы на случайных (или неизвестного источника) числовых данных в виде ряда. Вопрос организации?

dmshar @dmshar

1. Это только я не вижу "горизонтальных линий"?
2. Если "интересно применить" и не жалко потерять собственные деньги, то вопрос-то в чем?

Ответ написан более трёх лет назад

16 комментариев

16 комментариев
Где брать данные для корректного частотного анализа английского языка?

dmshar @dmshar

А Wikipedia - это для вас текст небольшого объема?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Есть ли возможность считать медиану выборки инкрементально?

dmshar @dmshar

Есть, и называется это Streaming Median:
https://programmingpraxis.com/2012/05/29/streaming...
https://habr.com/post/264987/
https://www.cse.wustl.edu/~jain/papers/ftp/psqr.pdf

Ответ написан более трёх лет назад

3 комментария

3 комментария
Знаете ли вы ещё подобные проекты?

dmshar @dmshar

Таких проектов - с открытым исходным кодом в том числе - достаточно много в сети. Вы бы предварительно рассказали, что именно вы считаете "интересным" проектом. Например, то что я увидел, мне интересным не показался.

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
С чего начать изучать алгоритмы?

dmshar @dmshar

Нужно понять, кем вы стремитесь стать - кодировщиком или разработчиком.
Если кодировщиком - то выучили язык и бегом - по готовому, кем-то составленному ТЗ - писать программы и деньги зарабатывать.
Если разработчиком - то без знания алгоритмов вам не обойтись. Вы сами должны будете уметь хотя-бы из имеющихся реализаций выбрать наиболее подходящую или эффективную. А возможно и модифицировать их именно с учетом конкретного приложения. А "рядом" с алгоритмами обычно изучаются структуры данных - без них разработчику (а не кодировщику) - тоже никак.
Этап изучения языка - это база. Другое дело, что учить "голый" язык бывает скучновато. И это обучение "разбавляют" всякими простенькими задачами -в том числе из области алгоритмизации. Ну, к примеру, поиск максимального элемента в массиве, или простейшие сортировки. Но это не более, чем база. Хотя многие почему-то гордо считают, что это и есть изучение "алгоритмов и структур данных".
А этап изучения алгоритмов - это уже более высокая ступень совершенствования в профессии.
Но и изучаются эти две дисциплины по-разному. Изучение языка - это как в школе. Многие вещи надо помнить наизусть. Вы не будете за синтаксисом каждого оператора лазить в Google. Знания языка, умение кодить - это как навык, который должен срабатывать даже во сне. А вот алгоритмы и структуры данных изучаются уже действительно на уровне понимания. Необходимо не запоминать, но понимать, какие они есть, когда они могут оказаться полезными, в чем отличие одного от другого. А при случае - суметь задать умный (!!!) вопрос Google и в море "шлакоответов" найти - и главное понять - правильный.
Что-до книг. Кормен и Лейзерсон для новичка, действительно, сложноват.
Но во-первых, есть его "прямая адаптация": Бхаргава А. - Грокаем Алгоритмы. Иллюстрированное пособие для программистов и любопытствущих - 2017. То же самое, но проще.
Во-вторых, тот же Кормен написал еще одну книгу: Кормен Алгоритмы. Вводный курс. Вот ее можно уже рекомендовать и для новичка.
Кроме того, могу порекомендовать сайты, с вполне доступными материалами:
algolist.manual.ru
aliev.me/runestone
И в сети - если совсем лень - есть сегодня куча неплохих видеокурсов. Так что - удачи.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какие курсы по машинному обучению пройти на Coursera?

dmshar @dmshar

Ну, хоть бы сообщили, в какой области у вас "стандартный университетский багаж знаний". И неплохо бы понимать - вы бакалавр или магистр? Просто "лучший курс от Coursera" для магистра по специальности "прикладная математика" и бакалавра по специальности "мелиорация и водное хозяйство" могут оказаться разными, вам не кажется?
Кроме того, в сети достаточно много откликов по указанным курсам - не например
https://www.ibs.ru/datalab/blog/osvoenie-spetsialn...
Какой курс по машинному обучению на Coursera полезнее?
https://www.quora.com/What-is-your-review-of-Cours...
Вы их уже проанализировали и у вас остались какие-то неясности? Или вы просто ждете, что кто-то скажет "вот этот курс лучше, а вот этот курс хуже"? Так человек для этого должен как минимум пройти три-четыре таких курсов, что-бы было с чем квалифицировано сравнить.
(Кстати - вопрос, почему именно Coursera, а не какой-нибудь другой источник - для простоты оставим за скобками).
А вообще в таких случаях всегда говорю - вы начните хоть с чего нибудь. Хорошо пойдет - чудесно. Что-то пойдет не так - успеете перескочить на другой. Это все равно лучше, чем сидеть и мечтательно раздумывать "а что лучше-что хуже", полагаясь на чье-то чужое мнение, авторитетность которого - вообще-то мягко говоря не ясна.
Удачи.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как определить ближайшие точки на плоскости путем хеширования?

dmshar @dmshar

Вообще-то в приведенной статье приведена несколько другая формула.
(Floor(pos.x / cellSize) * 73856093) ^ (Floor(pos.y / cellSize) * 19349663) ^ (Floor(pos.z / cellSize) * 83492791)
Вы не находите, что операция "^" несколько отличается от операции "+"?

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как написать простую нейросеть для определения рейтинга банка?

dmshar @dmshar

Не очень понял вопрос "как написать"? Может вас все-таки интересует "Какой метод использовать"?
Задам еще один вопрос - почему нейросеть? Для обучения нейросети необходимо ОЧЕНЬ много данных. Порядка нескольких тысяч. Они есть у вас?
Теперь по методу. Все зависит от того, какие (по типу) данные у вас есть. Если они изменены в количественной шкале - то можно попытаться применить методы ранговой регрессии, метод главных компонент, ну может еще что-то из области теории шкалирования.
Если же у вас данные представлены в различных шкалах - количественной, ранговой, номинальной, дихотомической, то наиболее простой путь - строить классификатор. Например - на основе деревьев.
Ну, а если очень повезет, то может быть сработает и k-NN метод или какие нибудь из его модификации.
"Библиотек" - а точнее, модулей, реализующих указанные методы в библиотеке Scikit-Learn (на Python) - более чем достаточно.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как выделить главный элемент из двух символов?

dmshar @dmshar

Вопрос сформулирован феерично. "Как бы вы выделили"? Ну например: "словами", "люминисцентной лентой" , "специальным шрифтом" или "глубоким тиснением" - подойдет?
А если серьезно, то нормально сформулированный вопрос должен содержать хотя-бы намек на то, какими средствами и главное - зачем - вы хотите это сделать. Это табличка, которая на дверь вешается? Или это элемент плаката на стену класса с объяснением для ПТУшников? От этого сильно зависит "как выделить". Кроме того, непонятно для чего - если "не совать руки" то надо не зеленым выделять, а красным, например.
А если отображение на экране компьютера - то может надо не черным, а серым обозначать неработающий механизм?
Ну и еще - в вашем примере какой атрибут "главный"? Круг, собственно и обозначающий насос или треугольник (кстати - а почему треугольник)? Почему недостаточно просто разноцветных кругов? Или у вас не круг, а все-таки "окружность"?

Ответ написан более трёх лет назад

5 комментариев

5 комментариев
Видит ли сайт имя компьютера при скачивании или загрузке файла?

dmshar @dmshar

Имя компьютера и IP-адрес (компьютера или сети)- можно. MAC-адрес - нет.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Что стоит почитать для создания такой задачи?

dmshar @dmshar

"пользователи смотрели бы на эту игру." - и в чем прикол? Может, лучше посмотреть футбол?
Что посоветуете? - "пилите Шура, пилите" (С)

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как подготовить базу для нейронный сети?

dmshar @dmshar

А вы прочитали хоть одну книгу, статью, да просто страничку в интернет про нейронные сети, как они устроены, как работают? Или вы решили "переизобрести велосипед" ?
Судя по вопросам - не читали. Вот с этого и рекомендую начать.
Про базу данных - ответ примерно тот-же. Попробуйте начать с того, что-бы разобраться, а как вообще можно хранить информацию в компьютере. Это написано на первых страницах любой книжки по программированию.
Про "ngram" - это вообще какая-то загадочная фраза. Хоть знаки препинания расставьте, что-ли.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как сделать такие края на фото?

dmshar @dmshar

Вводите в Google "рамка старых краев фото"
Берете любую понравившуюся рамку, накладываете как верхний слой в Фотошоп. Можно еще поиграться и использовать найденную рамку в качестве маской слоя.
Эффект примерно одинаков.

Ответ написан более трёх лет назад

Комментировать

Комментировать
С чего начать изучать нейронные сети?

dmshar @dmshar

С того, что открыть Google и ввести "нейронные сети".
На первой же странице находим
- ссылки на несколько сайтов именно для того чтобы "с чего начать", в большинстве из них есть ссылки на расширенные материалы.
- ссылку на обучающий портал - по сути, учебник - от statsoft.
- ссылки на видеокурсы- как минимум, четыре штуки
- ссылки на насколько научно-популярных порталов, посвященных ИНС и ИИ
- ссылку на tproger.ru/tag/neural-network/, откуда в свою очередь - куча ссылок на сайты, книги, курсы и пр. по теме.
И - естественно - ссылка на статью в Википедии, в которой есть чудесный "вводный курс" по теме и десятки - если не сотни- ссылок для углубления понимания.
На второй странице выдачи Google - еще с десяток полезных ссылок того-же типа.
Если вы не умеете пользоваться даже Google, то может стоит начать с обучению этому "высокому искусству", а уж к нейронным сетям перейти потом?

Ответ написан более трёх лет назад

5 комментариев

5 комментариев

Самые активные сегодня

Константин
- 3 ответа
- 0 вопросов
Dupych
- 2 ответа
- 0 вопросов
Вячеслав Васильев
- 2 ответа
- 0 вопросов
anon1986
- 0 ответов
- 2 вопроса
hawkyh
- 2 ответа
- 0 вопросов
rinatoptimus
- 0 ответов
- 1 вопрос