Ответы пользователя по тегу Big data
  • Какие есть стандартные наборы данных для тестирования и сравнения нейронных сетей?

    @dmshar
    Ну, можно еще и тут:
    https://huggingface.co/datasets
    Ответ написан
    Комментировать
  • Мне необходимо выбрать тему диплома, связанную с BIG DATA, e-commerce. Какую лучше взять?

    @dmshar
    Время, когда любую задачу машинного обучения гордо обзывали Big Data давно прошло. Big Data тем и отличается от традиционного Mаchine Learning (включая нейронки между прочим), что данных должно быть очень много. Очень. Очень-очень-очень. Настолько много, что вы не в состоянии решить задачу без распараллеливания, без специальных методов работы с постоянной подкачкой и пр. Big Data - это не классификаторы, не кластеризация и не Deep Learning. Это Hadoop и все, что вокруг него, это MapReduce, это Spark, X-plenty, Cassandra, всякие Hana, Teradata, Talend и пр.
    Вы точно это имеете ввиду, когда говорите про Big Data? И у вас есть терабайты этих самых данных, и доступ к соответствующим инструментам их обработки? Интернет-магазин, говорите? У вас есть доступ к данным Amazon?
    Может для начала стоит хоть с терминологией правильной разобраться (хотя диплом, что-то же вы 4 или 6 лет все-таки учили?), а уж потом думать про диплом.
    И если вы все-таки решите писать работу в области Machine Learning, то рекомендую для начала подумать, к каким данным у вас есть реально доступ, а уж исходя из этого и тему придумывать.
    Ответ написан
    Комментировать
  • Подкинете идей для диплома (Сбор или/и анализ больших данных)?

    @dmshar
    Доучиться до магистра и не уметь придумать темы для СВОЕГО диплома, а ждать, когда незнакомые люди что-нибудь насоветуют, не зная даже, а по какой специальности-то диплом. Жесть!
    Впрочем, что касается Big Data - то все очевидно. Нет у вас ни больших данных, ни ресурсов для работы с ними. И никогда не будет. Если вы слово "Big Data" все-же слышали в своем универе, то вас либо плохо учили, либо вы плохо учились, если этого так и не поняли.
    Ну и наконец. У вас есть научный руководитель диплома. Почему не обратиться к нему?
    Ответ написан
    3 комментария
  • Обучение data science, machine learning, big data, business analyst?

    @dmshar
    Если вы уже "нашли себя в аналитике", то надеюсь, вы уже проанализировали 127 ответов на подобный вопрос в этом-же форуме. И они вас чем-то не удовлетворили. Расскажите - чем именно, что-бы мы не повторяли в 128-й раз одно и тоже, а четко дали ответы на ваши четкие вопросы?
    Ответ написан
    4 комментария
  • Автоматизация подбора тегов к статье, как?

    @dmshar
    Существуют.
    Кажется первопроходцем был Reuters. Решение основано на использовании методов машинного обучения. Сначала на соответствующем наборе размеченных статей строиться некоторый классификатор. Затем он используется для отнесения новых статей к той или иной рубрике или рубрикам, что в точности соответствует задаче тегирования.
    Ну вот, на вскидку, просто как пример:
    https://towardsdatascience.com/applying-machine-le...
    Elaslic тут очень далеко - только как хранилище информации.
    Кстати, Reuters хвастался что он на внедрении этого метода экономит миллионы, в основном на зарплате разогнанного отдела почти на сотню сотрудников, которые ранее там тегировали новости вручную.
    Ответ написан
    Комментировать
  • Machine Learning и Big Data за три дня?

    @dmshar
    Все зависит от цели, для чего вам нужно за три дня "освоить" Machine Learning и Big Data.
    Если для того, что-бы выйти перед школьниками или домохозяйками и прочитать им получасовую лекцию на тему, что это такое и как это круто - то вот
    ai-news.ru/2018/11/kak_stat_ekspertom_po_mashinnom...
    и вот
    https://vas3k.ru/blog/machine_learning/
    И при этом молиться, что-бы слушатели не начали задавать вам вопросов.

    Если через три дня вы уезжаете на курорт и желаете оставшееся время потратить на самообразование, то, например, вот -
    https://datascientia.blog/page/1/ - (там целая серия, кажется 11 статей цикла Data Science Simplified) - по четыре статьи на день, в общем-то не много.
    И вообще-то такого научно-популярного добра в сети - полно. Ищите.

    Если это - не приведи Господи - какой-то вступительный экзамен, или собеседование - то лучше сразу сушить весла - сил, нервных клеток и времени (своего и собеседующего) хоть сэкономите.
    Ответ написан
    Комментировать
  • Есть ли готовое решение, франшиза агротеха с биг дата, датчиками в рос. сельхозе?

    @dmshar
    Все есть. Но у вас ничего не получиться. И не потому, что сложно. А потому, что прежде, чем заниматься искусственным интеллектом, надо научиться хотя-бы элементарному самостоятельному поиску в Гуугле.
    Казалось бы, ну что тут сложного, подбери поисковый запрос, набери и изучай результат - ан нет. Надо, что-бы это кто-то сделал за тебя и тебе преподнес готовый результат поиска.
    Впрочем, если вас отключили от интернет, у вас проблемы со связью - то я беру свои слова обратно. И даю вам перечень того, что удалось отыскать за не более, чем пять минут поиска.
    Выбирайте, внедряйте у себя на ферме.
    Удачи.
    ai-news.ru/2019/04/ii_v_selskom_hozyajstve.html
    https://neurohive.io/ru/novosti/400kg-zerna-s-gektara/
    agroportal.ua/publishing/lichnyi-vzglyad/it-innova...
    https://www.analyticsvidhya.com/blog/2018/05/data-...
    https://en.wikipedia.org/wiki/Data_mining_in_agric...
    https://www.bloomberg.com/news/articles/2016-06-09...
    https://www.at.farm/ua/home
    https://neurohive.io/ru/novosti/iskusstvennyj-inte...
    https://cloud.google.com/blog/products/gcp/how-a-j...
    ai-news.ru/2018/11/kompaniya_iz_knr_vnedryaet_v_sv...
    agrosite.org
    Ответ написан
  • Можно ли оценить относительную важность признаков?

    @dmshar
    Надеюсь, такое понятие, как "корреляция" вам известно. При этом корреляция бывает не только классической, Пирсоновской, измеряемой на количественных данных, но и специальной, приспособленной для работы с ранговыми данными (корреляции Кенделла, Спирмана), с номинальными данными, с дихотомическими данными и с их комбинациями.
    Таким образом, для вашего примера можно формально определить, что, например, в группе мужчин с бинарным признаком "купил/не купил" больше коррелирует номинальный признак "материал" чем номинальный признак "цвет", а в группе женщин - наоборот.
    Задача достаточно известная и неплохо описанная в любом курсе современного статистического анализа.
    Ответ написан
    1 комментарий
  • Перспективные направления в Big Data?

    @dmshar
    Ну, я бы не был столь категоричен относительно R.
    Смотрим в один из самых авторитетных источников:
    https://www.tiobe.com/tiobe-index/
    R в 2008 году - 0.045% аудитории, в 2018 - 2.549%
    Python в 2008 году - 4.227%, в 2018 - 4.678%.
    Сравните темпы роста пользовательского компьюнити на том и и другом языках.
    Можно сделать сравнение и за последние пять лет.
    Да, Python пользуют примерно в два раза больше людей, чем R.
    Но! Ниша R - исключительно DS. Ниша Python - DS+ Webразработка + Первый язык обучения( во многих школах США как минимум). Понятно, что аудитория за счет второго и третьего слагаемого будет существенно шире. Кстати, R - единственный откровенно "нишевый" язык в первой десятке.
    Вывод. Хочешь в Big Data и Data Science - R И Python must have!
    Ответ написан
    Комментировать
  • Необходимо ли знать прикладные инструменты для больших данных, анализа и машинного обучения?

    @dmshar
    Для работы с Big Data, Machine Learning и аналитики данных существует уйма различных инструментов - от Python до Watson, от RCPP до TensorFlow, от Tableau до SPSS, от RapidMiner до Hadoop.... Список можно продолжать и продолжать. Между прочим, даже тривиальный MS EXCEL имеет средства для большинства из указанных задач.
    В принципе все задачи можна решать хоть на С++, хоть на Java хоть на Ассемблере. Вот, даже на JavaScript уже пишут нейронные сети. Вопрос - что именно вы хотите в конечном счете сделать, как глубоко понимать что именно вы делаете, как быстро вам надо проходить путь от постановки задачи к готовому решению, какие деньги вы готовы потратить на получение этого решения и какими начальными знаниями в области технологий программирования вы или ваша команда владеете.
    Поэтому рекомендую обучение начать не с инструментов, а с идей, алгоритмов и методов, лежащих в основе задач Data Science. А по ходу - разберетесь, какой именно инструмент конкретно для вашего случая наиболее подходящий. И скорее всего, это будет не один какой-то инструмент, а несколько, которые в совокупности наиболее полно и эффективно покроют именно ваш круг потребностей.
    Ответ написан
    Комментировать
  • Какие технологие модные в data scince и big data?

    @dmshar
    Ничего себе вопросец :-).
    Ну, в общем, если интересует, что в тренде - то вот "почти последние" обзоры на тему. Даже - с кратким описанием.
    ru.datasides.com/big-data-analytic-tools
    www.kdnuggets.com/2016/06/r-python-top-analytics-d...
    www.itpro.co.uk/strategy/28161/the-best-big-data-t...
    Думаю, для начала более, чем хватит.
    Ответ написан
    Комментировать