• Как выбрать данные для классификации случайным лесом?

    @dmshar
    А вы точно изучали теорию?
    Задачи классификации (все, независимо от метода) - на вход принимают РАЗМЕЧЕННЫЙ набор данных по которым строят классификатор, а вашем случае - дерево или лес. Потом полученный классификатор используется для отнесения вновь поступающих данных к одному из классов.
    "Самостоятельное" ( в вашей трактовке) разбиение на классы - это уже другая задача - кластеризаця.
    Ответ написан
    Комментировать
  • Как получить цвет пикселя?

    @dmshar
    https://www.youtube.com/watch?v=58ktco1LGm4
    А дальше - самостоятельно!
    Ответ написан
    Комментировать
  • Можно ли оценить относительную важность признаков?

    @dmshar
    Надеюсь, такое понятие, как "корреляция" вам известно. При этом корреляция бывает не только классической, Пирсоновской, измеряемой на количественных данных, но и специальной, приспособленной для работы с ранговыми данными (корреляции Кенделла, Спирмана), с номинальными данными, с дихотомическими данными и с их комбинациями.
    Таким образом, для вашего примера можно формально определить, что, например, в группе мужчин с бинарным признаком "купил/не купил" больше коррелирует номинальный признак "материал" чем номинальный признак "цвет", а в группе женщин - наоборот.
    Задача достаточно известная и неплохо описанная в любом курсе современного статистического анализа.
    Ответ написан
    1 комментарий
  • Как классифицировать новость с помощью машинного обучения?

    @dmshar
    Меня всегда интересовало - люди начинают заниматься такими вопросами из соображений простого любопытства или им дают такое задание по работе? Если первое - то почему сразу за советами в форум, а не элементарный поиск в интернет или чтение учебника. Если второе - то почему не объяснить работодателю, что вы не специалист в теме?
    А информации не самом деле уйма - книги, веб ресурсы, курсов, любой учебник по машинному обучению содержит соответствующий раздел или как минимум пример.

    https://www.slideshare.net/compscicenter/-32801202
    https://www.youtube.com/watch?v=hULD4jS5DEc
    https://towardsdatascience.com/text-classification...
    xplordat.com/2018/12/14/want-to-cluster-text-try-c...
    https://www.analyticsvidhya.com/blog/2018/11/tutor...
    https://habr.com/post/346206/
    https://nlpub.ru/
    Ответ написан
    Комментировать
  • Можете помочь с идеей проекта?

    @dmshar
    А причем тут стартап? Тема уже изучена и пользуется вдоль и поперек. Про рекомендательные системы что-то слыхали? От рекомендаций покупок или просмотров фильмов до подбора меню в ресторане, выбора маршрутов поездок, профессии, метода лечения и пр. Все они основаны на обнаружении "похожести" характеров, вкусов, настроений, физических состояний людей между собой и на последующем принятии решений по типу "если это нравиться Х, то человек, на него похожий в указанном смысле тоже будет в этом заинтересован".
    Это одно из возможных применений современного машинного обучения.
    Ответ написан
    Комментировать
  • Какой алгоритм сжатия данных использовать при архивации лог файлов?

    @dmshar
    Если это реальная задача - то бессмысленно что-то писать самому. Берете готовые, проверяете их на реально имеющихся лог-файлах, сравниваете,делаете выводы, лучший запускаете в продакшн.
    Если это учебная задача - просто научиться реализовывать архиваторы - то изучаете существующие алгоритмы и реализуете любой из них. Все равно, ваша учебная реализация будет хуже, чем имеющиеся коммерческие. Поэтому сравнивать их никто в здравом уме не будет.
    Ответ написан
    Комментировать
  • Проверка гипотезы на случайных (или неизвестного источника) числовых данных в виде ряда. Вопрос организации?

    @dmshar
    1. Это только я не вижу "горизонтальных линий"?
    2. Если "интересно применить" и не жалко потерять собственные деньги, то вопрос-то в чем?
    Ответ написан
  • Где брать данные для корректного частотного анализа английского языка?

    @dmshar
    А Wikipedia - это для вас текст небольшого объема?
    Ответ написан
    Комментировать
  • Знаете ли вы ещё подобные проекты?

    @dmshar
    Таких проектов - с открытым исходным кодом в том числе - достаточно много в сети. Вы бы предварительно рассказали, что именно вы считаете "интересным" проектом. Например, то что я увидел, мне интересным не показался.
    Ответ написан
    6 комментариев
  • С чего начать изучать алгоритмы?

    @dmshar
    Нужно понять, кем вы стремитесь стать - кодировщиком или разработчиком.
    Если кодировщиком - то выучили язык и бегом - по готовому, кем-то составленному ТЗ - писать программы и деньги зарабатывать.
    Если разработчиком - то без знания алгоритмов вам не обойтись. Вы сами должны будете уметь хотя-бы из имеющихся реализаций выбрать наиболее подходящую или эффективную. А возможно и модифицировать их именно с учетом конкретного приложения. А "рядом" с алгоритмами обычно изучаются структуры данных - без них разработчику (а не кодировщику) - тоже никак.
    Этап изучения языка - это база. Другое дело, что учить "голый" язык бывает скучновато. И это обучение "разбавляют" всякими простенькими задачами -в том числе из области алгоритмизации. Ну, к примеру, поиск максимального элемента в массиве, или простейшие сортировки. Но это не более, чем база. Хотя многие почему-то гордо считают, что это и есть изучение "алгоритмов и структур данных".
    А этап изучения алгоритмов - это уже более высокая ступень совершенствования в профессии.
    Но и изучаются эти две дисциплины по-разному. Изучение языка - это как в школе. Многие вещи надо помнить наизусть. Вы не будете за синтаксисом каждого оператора лазить в Google. Знания языка, умение кодить - это как навык, который должен срабатывать даже во сне. А вот алгоритмы и структуры данных изучаются уже действительно на уровне понимания. Необходимо не запоминать, но понимать, какие они есть, когда они могут оказаться полезными, в чем отличие одного от другого. А при случае - суметь задать умный (!!!) вопрос Google и в море "шлакоответов" найти - и главное понять - правильный.
    Что-до книг. Кормен и Лейзерсон для новичка, действительно, сложноват.
    Но во-первых, есть его "прямая адаптация": Бхаргава А. - Грокаем Алгоритмы. Иллюстрированное пособие для программистов и любопытствущих - 2017. То же самое, но проще.
    Во-вторых, тот же Кормен написал еще одну книгу: Кормен Алгоритмы. Вводный курс. Вот ее можно уже рекомендовать и для новичка.
    Кроме того, могу порекомендовать сайты, с вполне доступными материалами:
    algolist.manual.ru
    aliev.me/runestone
    И в сети - если совсем лень - есть сегодня куча неплохих видеокурсов. Так что - удачи.
    Ответ написан
    Комментировать
  • Какие курсы по машинному обучению пройти на Coursera?

    @dmshar
    Ну, хоть бы сообщили, в какой области у вас "стандартный университетский багаж знаний". И неплохо бы понимать - вы бакалавр или магистр? Просто "лучший курс от Coursera" для магистра по специальности "прикладная математика" и бакалавра по специальности "мелиорация и водное хозяйство" могут оказаться разными, вам не кажется?
    Кроме того, в сети достаточно много откликов по указанным курсам - не например
    https://www.ibs.ru/datalab/blog/osvoenie-spetsialn...
    Какой курс по машинному обучению на Coursera полезнее?
    https://www.quora.com/What-is-your-review-of-Cours...
    Вы их уже проанализировали и у вас остались какие-то неясности? Или вы просто ждете, что кто-то скажет "вот этот курс лучше, а вот этот курс хуже"? Так человек для этого должен как минимум пройти три-четыре таких курсов, что-бы было с чем квалифицировано сравнить.
    (Кстати - вопрос, почему именно Coursera, а не какой-нибудь другой источник - для простоты оставим за скобками).
    А вообще в таких случаях всегда говорю - вы начните хоть с чего нибудь. Хорошо пойдет - чудесно. Что-то пойдет не так - успеете перескочить на другой. Это все равно лучше, чем сидеть и мечтательно раздумывать "а что лучше-что хуже", полагаясь на чье-то чужое мнение, авторитетность которого - вообще-то мягко говоря не ясна.
    Удачи.
    Ответ написан
    Комментировать
  • Как определить ближайшие точки на плоскости путем хеширования?

    @dmshar
    Вообще-то в приведенной статье приведена несколько другая формула.
    (Floor(pos.x / cellSize) * 73856093) ^ (Floor(pos.y / cellSize) * 19349663) ^ (Floor(pos.z / cellSize) * 83492791)
    Вы не находите, что операция "^" несколько отличается от операции "+"?
    Ответ написан
  • Как написать простую нейросеть для определения рейтинга банка?

    @dmshar
    Не очень понял вопрос "как написать"? Может вас все-таки интересует "Какой метод использовать"?
    Задам еще один вопрос - почему нейросеть? Для обучения нейросети необходимо ОЧЕНЬ много данных. Порядка нескольких тысяч. Они есть у вас?
    Теперь по методу. Все зависит от того, какие (по типу) данные у вас есть. Если они изменены в количественной шкале - то можно попытаться применить методы ранговой регрессии, метод главных компонент, ну может еще что-то из области теории шкалирования.
    Если же у вас данные представлены в различных шкалах - количественной, ранговой, номинальной, дихотомической, то наиболее простой путь - строить классификатор. Например - на основе деревьев.
    Ну, а если очень повезет, то может быть сработает и k-NN метод или какие нибудь из его модификации.
    "Библиотек" - а точнее, модулей, реализующих указанные методы в библиотеке Scikit-Learn (на Python) - более чем достаточно.
    Ответ написан
    2 комментария
  • Как выделить главный элемент из двух символов?

    @dmshar
    Вопрос сформулирован феерично. "Как бы вы выделили"? Ну например: "словами", "люминисцентной лентой" , "специальным шрифтом" или "глубоким тиснением" - подойдет?
    А если серьезно, то нормально сформулированный вопрос должен содержать хотя-бы намек на то, какими средствами и главное - зачем - вы хотите это сделать. Это табличка, которая на дверь вешается? Или это элемент плаката на стену класса с объяснением для ПТУшников? От этого сильно зависит "как выделить". Кроме того, непонятно для чего - если "не совать руки" то надо не зеленым выделять, а красным, например.
    А если отображение на экране компьютера - то может надо не черным, а серым обозначать неработающий механизм?
    Ну и еще - в вашем примере какой атрибут "главный"? Круг, собственно и обозначающий насос или треугольник (кстати - а почему треугольник)? Почему недостаточно просто разноцветных кругов? Или у вас не круг, а все-таки "окружность"?
    Ответ написан
  • Видит ли сайт имя компьютера при скачивании или загрузке файла?

    @dmshar
    Имя компьютера и IP-адрес (компьютера или сети)- можно. MAC-адрес - нет.
    Ответ написан
    Комментировать
  • Что стоит почитать для создания такой задачи?

    @dmshar
    "пользователи смотрели бы на эту игру." - и в чем прикол? Может, лучше посмотреть футбол?
    Что посоветуете? - "пилите Шура, пилите" (С)
    Ответ написан
    Комментировать
  • Как подготовить базу для нейронный сети?

    @dmshar
    А вы прочитали хоть одну книгу, статью, да просто страничку в интернет про нейронные сети, как они устроены, как работают? Или вы решили "переизобрести велосипед" ?
    Судя по вопросам - не читали. Вот с этого и рекомендую начать.
    Про базу данных - ответ примерно тот-же. Попробуйте начать с того, что-бы разобраться, а как вообще можно хранить информацию в компьютере. Это написано на первых страницах любой книжки по программированию.
    Про "ngram" - это вообще какая-то загадочная фраза. Хоть знаки препинания расставьте, что-ли.
    Ответ написан
    2 комментария
  • Как сделать такие края на фото?

    @dmshar
    Вводите в Google "рамка старых краев фото"
    Берете любую понравившуюся рамку, накладываете как верхний слой в Фотошоп. Можно еще поиграться и использовать найденную рамку в качестве маской слоя.
    Эффект примерно одинаков.
    Ответ написан
    Комментировать