Ответы пользователя по тегу Data mining
  • Как прокачаться и научиться языку программирования\аналитики R?

    @volokhonsky
    Не знаю, насколько уж я монстр вот этого всего, но расскажу, как у меня что-то получилось.
    Сперва, лет пять, наверное, назад, я попробовал запустить R и что-то сделать, но у меня так и не получилось открыть файл. Года через полтора к нам на психфак СПбГУ приезжал один товарищ из какого-то американского вуза и собирался учить нас статистике, используемой в клинической психологии. Однако, большую часть занятия мы учились открывать файл в R, что очень помогло мне в дальнейшем.
    В 2012 году я уже кое-что мог делать в R, но чувствовал себя крайне неуверенно и делал всё очень, очень медленно. После того, как я уволился из СПбГУ (всё-таки вести блог "Новости СПбГУ" было слишком рискованным предприятием) у меня уже не было академической лицензии на SPSS, и я полностью перешёл на R и занялся выполнением коммерческих заказов.
    В одном из них мне надо было быстро подготовить штук пятнадцать отчётов по одинаковым геомаркетинговым исследованиям разных точек Подмосковья. И я нанял коллегу, который был в R прокачан куда больше меня. По моему заказу, он написал скрипт, который автоматически открывал все xls файлы в папке, обрабатывал их и складывал нарисованные в ggplot картинки в новые папочки.
    В своей последующей работе я ещё около полутора лет пользовался фрагментами этого кода. Наконец, в июле 2014 года я устроился работать исследователем в компанию Wargaming, рассчитывая, что регулярная, ежедневная практика позволит мне существенно укрепить мои навыки. Всё-таки, работать постоянно - это не то же самое, что на 3-4 дня в месяц включаться в проект. И не прогадал в том плане, что мне больше не надо заглядывать в справочник по функциям, чтобы решать рядовые задачи.

    Очень рекомендую в первую очередь заняться не освоением каких-то суперсложных модных методов обработки данных, а добиться полного и чёткого понимания команд "шейпинга" данных. Вот эти вот все aggregate, cast, melt, rbind.fill, apply, lapply, recode, merge... Потому что пока этого понимания нет, при работе с любыми другими методами 70-90% времени уходит на то, чтобы понять, как подготовить данные того вида, которые нужны.

    Увы, решение устроиться на работу привело меня к полной невозможности повышать свою квалификацию на курсере и т.п., потому что времени на такое просто нет в принципе. Разве что если как-то так спланировать и отпуск или новогодние каникулы на сие потратить.
    Ответ написан
    3 комментария