На сайте происходят голосования, за N объектов голосуют M пользователей.
N - где-то около 1000
M - где-то около 30000
За месяц набегает около 30-40 тыс голосований.
Каждый может за один объект голосовать только один раз (положительно или отрицательно), по результатам голосования раздаются плюшки. Есть подозрение, что пользователи формируют негласные договоренности и организуются в кланы, которые голосуют положительно за своих и отрицательно за чужих.
Как с помощью статистики можно эту теорию проверить?
vgray: могу лишь смотреть статистику голосований против, обычно если статься хорошая то голосов против бывает меньше голосов за. То есть стата 1000+/1000- может что-то сказать? Получается многим нравится и многим резко не нравится. Надо проанализировать статистику того же хабра со своими данными (сколько голосуют за хорошие статьи, каков процент за и против у них, много ли постов с большим количеством голосов за и против). Каково среднее количество голосов против? Как они распределяются по всем статьям? Что будет если убрать голоса против?
Для начала нужно определиться с пространством признаков. Что значит что объект "свой" или "чужой". ну а далее можно начать с разбиения на кластеры и анализ полученных классификаторов.
Если продолжить аналогию с хабром, (см мой ответ для Zhainar ) то часть топиков написана пользователями которые входят в свой клан и за них нужно голосовать много и строго положительно. за другие посты (не за все, а только которые угрожают забрать плюшки) нужно голосовать отрицательно.
С какой стороны подступиться к задаче и как опредить есть такие кланы (кластеры) которые голосуют за топики от своих авторов и голосуют против топиков других авторов.