• Работа для прикладного математика

    @ezavialov
    В России и Украине работы по этому направлению довольно мало. По крайней мере, на hh.ru ее почти нет (3 вакансии в Москве по data mining vs несколько сотен по java). Самым проторенным и соблазнительным, с точки зрения порога вхождения, выглядит создание всевозможных скоринг моделей, аналитических систем и отчетов в различных системах (например, SAS) "программирования мышкой". Но, лично мне это не кажется привлекательным.
    Я бы посоветовал особо не спешить, и несколько лет развиваться в этом направлении самостоятельно (посмотри в сторону kaggle.com). Основная сложность вхождения в data mining состоит в том, что порог весьма велик. Поэтому джуниором серьезные компании тебя навряд ли возьмут (хотя, всякое может быть).
    Кроме того, в data mining существует огромное кол-во направлений и одним лишь курсом с coursera их все не захватить. Для увеличения кругозора советую посмотреть еще курс лекция профессора Воронцова на ШАД. + изучи ресурс machinelearning.ru/
    Ответ написан
    1 комментарий
  • Как правильно хранить настройки в программе на Java?

    @ezavialov
    Как вариант, храни настройки в xml файле, а в момент старта приложения подгружай их в оперативную память
    Ответ написан
    Комментировать
  • Инструмент для анализа статистики приложения!?

    @ezavialov

    Вам уже посоветовали R, но я бы не его рекомендовал. Дело в том, что как язык программирования он просто ужасен (его используют уже на разжеванных, готовых данных, всю логику по обрабтке логов лучше делать на python/java/etc), поэтому лучше сделайте так:
    0) Для сложной аналитики возможностей GA может не хватить, в таком случае вы можете реализовать систему аналитики самостоятельно, но учтите что это довольно трудоемко. Готовых инструментов как таковых нет (если вам нужны возможности, большие чем GA), поэтому придется реализовать все самому.
    1) Выработайте четкий план того, что именно вы хотите измерять. Понимаю, что без опыта это сделать сложно, но поверьте, лучше это сделать сейчас, чем через месяц, когда вы уже убили кучу времени на написание серверной логики по обработке статистики. Если для ваших задач хватает GA, используйте его и не парьтесь. Если нет, см. п. 2
    2)Отбросьте все не нужное и мало значимое из п. 1. Оставьте только самое важное, что вам гарантированно пригодится.
    3)Реализуйте это наипростейшим образом (но так, чтобы в ходе реализации вы бы создали инфраструктуру, позволяющую написать дополнительные метрики как можно быстрее).
    4)Получите первые данные и попробуйте с уже имеющимися метриками решить задачу. К этому моменту вам станет ясно, каких метрик не хватает. Вернитесь к пункту 1.

    Ответ написан
    Комментировать
  • Статистика мобильных ОС?

    @ezavialov

    Используйте liveinternet:
    Москва: http://www.liveinternet.ru/stat/ru/oses.html?slice=msk
    Питер: http://www.liveinternet.ru/stat/ru/oses.html?slice=spb
    Здесь в униках

    Ответ написан
    Комментировать
  • Какую выбрать тему/проект для диплома?

    @ezavialov

    Я бы очень посоветовал вам взять одно из заданий с kaggle.com и добиться там достойного места.

    Ответ написан
    2 комментария
  • Архив статистики поведения пользователей

    @ezavialov

    У Яндекса ксть конкурс интернет-математика. Они там периодически выкладывают части логов поведения пользователей на поисковой выдаче. Например, http://switchdetect.yandex.ru/datasets

    Ответ написан
    Комментировать
  • Анализ поведения пользователя онлайн

    @ezavialov

    Вначале не внимательно прочитал ваш вопрос.
    Качественно сделать то, что вы предлагаете крайне сложно. В следствии чего, те, кто это понимает, на ваш проект не обратят внимания. Те, кто этого не понимает, попробуют, увидят, что это им ничего не дает и уйдут.
    Как вы собираетесь решать эту задачу? Ведь большинство сайтов в той или иной степени уникальны. Например, взять выдачу поисковой системы, интернет-магазин и сайт компании, на котором можно сделать заказ. Принципиально разное поведение пользователей. Более того, возьмите интернет-магазин с канцтоварами и бытовой электроникой, опять же разное поведение пользователей. В следствии чего, в лучшем случае ваш сервис будет корректно работать на одном типе сайтов и совершенно не корректно на другом.
    Насчет того, что пользователь сможет создавать свою собственную модель поведения, идея интересная, но опять же. Если человек об этом вообще задумается и модель будет достаточно сложная, то это может иметь смысл, но вот захочет ли он отдавать вам статистику со своего сайта большой вопрос, а если модель будет простой, то хозяин сайта реализует ее самостоятельно и вы будете ему не нужны.
    P.S. ну и тут есть проблема холодного старта. Т.е. чтобы система начала работать более менее хорошо даже на строго определенном типе сайтов, необходимо большое кол-во логов. А эти логи еще нужно получить.
    P.P.S. нашел вашу статью на хабре. Ваша идея неплоха, но если делать то, о чем вы написали в своем вопросе, боюсь, на это потребуется огромное ко-во ресурсов, а результат будет не ясен (по причинам, что я описал выше). А вот в качестве эдакого простого способа накидать в визуальном редакторе бизнес правила для интерактивного взаимодействия с пользователем (если я правильно понял вашу мысль в статье ) ваша система будет очень полезна и востребована для начинающих вебмастеров.

    Ответ написан
    Комментировать
  • Визуализация данных из hadoop?

    @ezavialov

    Самое эффективное решение для описанной задачи написать джобу (или заюзать готовый org.apache.hadoop.examples.Grep) + bash + gnuplot.

    Ответ написан