@kerosin228

Нормальная ли тема для проекта и её план реализации?

Появилась задача написать проект. Тему, конечно же, нужно тоже выбрать самому. Я далёк от математики, статистики, big data, но у меня появилась такая идея - узнать, какие интересы есть у активных подписчиков группы X во ВКонтакте.
Кто такое активный подписчик? Это тот, кто ставит лайк под постом. (Тут сразу же возникает вопрос, как измерять активность? Отношение кол-ва лайкнутных постов к кол-во постов? Тогда, какое пороговое значение установить. Думаю, эти вопросы решатся после сбора данных).
Метод сбора данных
Берём исходную группу, парсим N последних постов, получаем список пользователей, которое поставили лайк под этими постами. Далее у этих пользователей получаем список групп, парсим посты этих групп, получаем список пользователей, лайкнувших эти посты... Так можно продолжать до бесконечности, но ресуры ограничены.
Я уже собрал данные 5000 постов с одной группы, получил лайки (заняло 2.75 ч.). Удивительно, что общее кол-во лайков - 22 * 10^6, а кол-во уникальных пользователей 9 * 10^5.
И из этого я могу составить граф интересов. Т.е. для каждой пары групп можно узнать общее кол-во активных пользователей - это и будет вес ребра. И уже далее можно вручную разметить группу - указать тематику, и исходя из этих двух вещей сделать вывод, какие интересы у активных пользователей подписчиков группы X.
Как вам идея? Нормальное ли получится исследование?
  • Вопрос задан
  • 294 просмотра
Пригласить эксперта
Ответы на вопрос 1
vechnokrainii
@vechnokrainii
ну почти всегда(
На мой взгляд вы делаете много лишней работы. Ваша цель узнать какие интересы у активных подписчиков группы Х. Первая проблема найти активных пописчиков. Вам нужно сделать акцент тут. По каким именно критериям это определять. Затем вы получаете какое-то кол-во активных юзеров. И парсите не другие группы, а именно этих пользователей. ( Принцип Парето вам в помощь) Вам же нужно узнать их интересы, и нет смысла парсить другие группы. Проблема в том как вы будете определять тематику группы. Вручную? Тогда легче просто получить список групп с иследуемых пользователей и составить сортированный список от большего к меньшего и определить тематику самостоятельно( вспомним про принцип парето).
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы