Вам уже посоветовали R, но я бы не его рекомендовал. Дело в том, что как язык программирования он просто ужасен (его используют уже на разжеванных, готовых данных, всю логику по обрабтке логов лучше делать на python/java/etc), поэтому лучше сделайте так:
0) Для сложной аналитики возможностей GA может не хватить, в таком случае вы можете реализовать систему аналитики самостоятельно, но учтите что это довольно трудоемко. Готовых инструментов как таковых нет (если вам нужны возможности, большие чем GA), поэтому придется реализовать все самому.
1) Выработайте четкий план того, что именно вы хотите измерять. Понимаю, что без опыта это сделать сложно, но поверьте, лучше это сделать сейчас, чем через месяц, когда вы уже убили кучу времени на написание серверной логики по обработке статистики. Если для ваших задач хватает GA, используйте его и не парьтесь. Если нет, см. п. 2
2)Отбросьте все не нужное и мало значимое из п. 1. Оставьте только самое важное, что вам гарантированно пригодится.
3)Реализуйте это наипростейшим образом (но так, чтобы в ходе реализации вы бы создали инфраструктуру, позволяющую написать дополнительные метрики как можно быстрее).
4)Получите первые данные и попробуйте с уже имеющимися метриками решить задачу. К этому моменту вам станет ясно, каких метрик не хватает. Вернитесь к пункту 1.
Используйте liveinternet:
Москва: http://www.liveinternet.ru/stat/ru/oses.html?slice=msk
Питер: http://www.liveinternet.ru/stat/ru/oses.html?slice=spb
Здесь в униках
Я бы очень посоветовал вам взять одно из заданий с kaggle.com и добиться там достойного места.
У Яндекса ксть конкурс интернет-математика. Они там периодически выкладывают части логов поведения пользователей на поисковой выдаче. Например, http://switchdetect.yandex.ru/datasets
Вначале не внимательно прочитал ваш вопрос.
Качественно сделать то, что вы предлагаете крайне сложно. В следствии чего, те, кто это понимает, на ваш проект не обратят внимания. Те, кто этого не понимает, попробуют, увидят, что это им ничего не дает и уйдут.
Как вы собираетесь решать эту задачу? Ведь большинство сайтов в той или иной степени уникальны. Например, взять выдачу поисковой системы, интернет-магазин и сайт компании, на котором можно сделать заказ. Принципиально разное поведение пользователей. Более того, возьмите интернет-магазин с канцтоварами и бытовой электроникой, опять же разное поведение пользователей. В следствии чего, в лучшем случае ваш сервис будет корректно работать на одном типе сайтов и совершенно не корректно на другом.
Насчет того, что пользователь сможет создавать свою собственную модель поведения, идея интересная, но опять же. Если человек об этом вообще задумается и модель будет достаточно сложная, то это может иметь смысл, но вот захочет ли он отдавать вам статистику со своего сайта большой вопрос, а если модель будет простой, то хозяин сайта реализует ее самостоятельно и вы будете ему не нужны.
P.S. ну и тут есть проблема холодного старта. Т.е. чтобы система начала работать более менее хорошо даже на строго определенном типе сайтов, необходимо большое кол-во логов. А эти логи еще нужно получить.
P.P.S. нашел вашу статью на хабре. Ваша идея неплоха, но если делать то, о чем вы написали в своем вопросе, боюсь, на это потребуется огромное ко-во ресурсов, а результат будет не ясен (по причинам, что я описал выше). А вот в качестве эдакого простого способа накидать в визуальном редакторе бизнес правила для интерактивного взаимодействия с пользователем (если я правильно понял вашу мысль в статье ) ваша система будет очень полезна и востребована для начинающих вебмастеров.
Самое эффективное решение для описанной задачи написать джобу (или заюзать готовый org.apache.hadoop.examples.Grep) + bash + gnuplot.