Ответы пользователя по тегу Java
  • Какие существуют подходы для извлечения данных с веб-сайтов?

    @lPolar
    data scientist
    Процесс сбора называется парсингом сайтов.
    Возьмите grab (bs4,requests,mechanize) и читайте статьи на хабре - там все описано.
    Ответ написан
    Комментировать
  • В чем преимущество Python перед Java для анализа больших данных / машинного обучения?

    @lPolar
    data scientist
    ИМХО, Python.
    Причина - предельная простота языка + набор готовых библиотек.
    Парсите сайты параллельно через grab, который оперирует C-библиотеками (lxml) в удобной питоновой обертке.
    Далее, если у вас данных <10 GB после парсинга - берите машинку с большим объемом оперативки, и используйте pandas +sklearn+hdf5 storage для хранения.
    Если данных >10 GB - берите распределенный кластер и pyspark + hive для хранения и моделей
    Java вам при решении data science задач не поможет - все равно python оперирует библиотеками с C-модулями и функциями (pandas/sklearn) или pyspark, это та же производительность Java, но в удобной обертке.
    Ответ написан
    Комментировать
  • Какой язык программирования выбрать для изучения?

    @lPolar
    data scientist
    О языках для аналитики замолвлю словечко.
    Python - классный, удобный. Большой набор библиотек для работы с данными, мало специфичных функций для статистики (легко реализуются самостоятельно).
    Минусы - все в памяти (pandas Memory Error), 2to3 не для всех библиотек
    Плюсы - есть API практически ко всему на свете (а к чему нету, легко прикрутить). По поводу памяти тоже слукавил, есть например pyspark в spark 1.3 в котором классный API именно для аналитиков.
    R - если есть время врубаться в несколько нелогичные названия функций и желание получить доступ к огромному количеству удобных пакетов для глубокого анализа - отличный.
    Масштабируемость - Oracle R Enterprise/DistributedR/RevolutionR - но это не для опенсорса.
    Еще можно попробовать для аналитики - Scala,Lua, Julia (кстати очень быстрый язык).
    Ответ написан
    2 комментария