• Нормальная ли тема для проекта и её план реализации?

    @kerosin228 Автор вопроса
    Akina, я взял последние 2500 постов (полгода). Думаю, достаточно объективно. Надо было добавить в среднем N постов из 100
  • Нормальная ли тема для проекта и её план реализации?

    @kerosin228 Автор вопроса
    Вечно Крайний, звучит правдоподобно. А как, например, анализировать неактивных участников? Ведь даже сложно понять, они подписаны, потому что им интересно, или им неинтересно, но им лень отписаться. Хотя, это, наверное, крайний случай, таких мало. Тогда можно по такой же логике взять пользователей, их группы, взять группы, в которых больше всего общих участников, разметить их, получить главные интересы. Но что если пользователей много - 2 миллиона? (Каких 400'000 подписчиков мне взять, чтобы эта выборка была репрезентативна? Выбирать случайным образом? Можно, конечно, всех проверить, вот только это будет очень долго. Я получил список групп активных участников и заметил, что кол-во групп, где число участников >10'000 очень мало. С каждым проверенным участником всё меньше активных уникальных групп можно получить. О чём, кстати, говорит закон Парето. ) Можно сразу же посмотреть на последнюю активность. Если пользователь заходил давно, то его не надо проверять.

    P.S.занимаюсь примерно тем же сейчас, только мне парсить не надо, но у меня данные не структуризированные(

    Не могли бы вы подробнее рассказать?
  • Нормальная ли тема для проекта и её план реализации?

    @kerosin228 Автор вопроса
    Вечно Крайний, как я определяю активных подписчиков - если пользователь лайкнул больше чем N постов из 100, то он активный.
    Отсеивать ботов. Интересная задача, нужно подумать, как отличить бота от человека - по каким-то признакам.
    Какие у нас есть признаки: ФИ, дата рождения (я анализирую по факту подростков (я-то понимаю, какие примерно у них интересы, но это надо доказать), а во ВКонтакте можно регистрироваться с 14 лет. Значит возраст в большинстве случаев указан неверный), страна, город, кол-во друзей, связь с другими соц. сетями, кол-во подписчиков, интересы, любая музыка, фильмы, политические взгляды (тоже редко заполняется, но в большинстве случаев достоверно), пол (в большинстве случаев указан верно). И как по этим данным выявлять интересы?

    Кстати, почему же я захотел парсить другие группы? Я исхожу из того, что активный пользователь будет лайкать то, что ему нравится. Соотвественно, получится узнать интересные группы. Конечно, большинство ведёт себя пассивно (достаточно посмотреть на кол-во лайков и просмотров), но их тоже можно анализировать. Опять же как тогда анализировать профиль, если тут такое скудное кол-во информации?
  • Нормальная ли тема для проекта и её план реализации?

    @kerosin228 Автор вопроса
    d-sem, если без информации об уровне проекта никуда, то это школьный проект (10-11 кл.)
    В целом, мне по силам разобраться (хотя может я переоцениваю себя, и такое исследование провести гораздо сложнее, чем я думаю. скорее всего так и есть, потому что статистику и подобные предметы я не изучал) в чём-то, при условии, что много времени. Я не знаю, нормальное ли исследование и метод исследования? Боюсь, что я где-то мог допустить ошибку, из-за чего сделаю неверные выводы.