Вечно Крайний, звучит правдоподобно. А как, например, анализировать неактивных участников? Ведь даже сложно понять, они подписаны, потому что им интересно, или им неинтересно, но им лень отписаться. Хотя, это, наверное, крайний случай, таких мало. Тогда можно по такой же логике взять пользователей, их группы, взять группы, в которых больше всего общих участников, разметить их, получить главные интересы. Но что если пользователей много - 2 миллиона? (Каких 400'000 подписчиков мне взять, чтобы эта выборка была репрезентативна? Выбирать случайным образом? Можно, конечно, всех проверить, вот только это будет очень долго. Я получил список групп активных участников и заметил, что кол-во групп, где число участников >10'000 очень мало. С каждым проверенным участником всё меньше активных уникальных групп можно получить. О чём, кстати, говорит закон Парето. ) Можно сразу же посмотреть на последнюю активность. Если пользователь заходил давно, то его не надо проверять.
P.S.занимаюсь примерно тем же сейчас, только мне парсить не надо, но у меня данные не структуризированные(
Вечно Крайний, как я определяю активных подписчиков - если пользователь лайкнул больше чем N постов из 100, то он активный.
Отсеивать ботов. Интересная задача, нужно подумать, как отличить бота от человека - по каким-то признакам.
Какие у нас есть признаки: ФИ, дата рождения (я анализирую по факту подростков (я-то понимаю, какие примерно у них интересы, но это надо доказать), а во ВКонтакте можно регистрироваться с 14 лет. Значит возраст в большинстве случаев указан неверный), страна, город, кол-во друзей, связь с другими соц. сетями, кол-во подписчиков, интересы, любая музыка, фильмы, политические взгляды (тоже редко заполняется, но в большинстве случаев достоверно), пол (в большинстве случаев указан верно). И как по этим данным выявлять интересы?
Кстати, почему же я захотел парсить другие группы? Я исхожу из того, что активный пользователь будет лайкать то, что ему нравится. Соотвественно, получится узнать интересные группы. Конечно, большинство ведёт себя пассивно (достаточно посмотреть на кол-во лайков и просмотров), но их тоже можно анализировать. Опять же как тогда анализировать профиль, если тут такое скудное кол-во информации?
d-sem, если без информации об уровне проекта никуда, то это школьный проект (10-11 кл.)
В целом, мне по силам разобраться (хотя может я переоцениваю себя, и такое исследование провести гораздо сложнее, чем я думаю. скорее всего так и есть, потому что статистику и подобные предметы я не изучал) в чём-то, при условии, что много времени. Я не знаю, нормальное ли исследование и метод исследования? Боюсь, что я где-то мог допустить ошибку, из-за чего сделаю неверные выводы.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.