Как определить, что запись популярная (будет популярной в будущем)?
Задача: Ежедневно в большом количестве групп (допустим 1к), публикуются множество записей. Необходимо определить, в первые 5 минут, популярна запись или нет (будет популярна в будущем).
В каждой группе соответственно разное количество пользователей (читай подписчиков).
Параметры записи:
1. Количество просмотров
2. Количество комментариев
3. Рейтинг записи
4. Дата публикации
5. Дата последнего комментария
Вам нужна нейронная сеть, которая на вход будет получать текст записи, а на выход давать вероятность популярности в будущем. Если в записи изображение, то задача усложняется, но принцип примерно тот же. Тема очень не простая, и дешево вы не сможете такое реализовать.
dimonchik2013, тема прогнозирования будущего вовсе не простая. Иначе сразу делайте торгового бота, который вам будет скупать на бирже все самое перспективное и продавать всё загибающееся. Я имею в виду не сиюминутные взлеты и падения, а то, что в будущем будет.
dollar, ну самое простое, это частота новых комментариев. Например нам известно, что в среднем за 5ть минут добавляется 5-ть комментариев.
Соответственно если за 5-ть минут добавленно скажем больше 10 комментариев, то получается эта запись интересует пользователей больше всего сейчас - можно предположить, что и через час она тоже будет популярна. Конечно погрешность большая (из за онлайна и т.д), но впринципе меня устраивает.
обеспечьте суперкомпьютер по цене, ну, 20ти ядерного Амазона, и за год сыграем - было бы чем обсчитывать
а в комментариях несчастных - пусть 20, зависимых, факторов, достаточно статистики, ну можно еще Байеса
UserTwo, скорее это указывает на неоднозначность темы и вообще на непонятность.
То есть, к примеру, если запись о том, как президент ходит в продуктовый магазин, то она породит много флуда. Грубо говоря из 100 просмотров будет 100 комментариев. А если написать, что синоптики на завтра предсказали шторм, то обсуждать практически нечего и из 1000 просмотров будет 10 комментариев. Хотя вторая запись важнее и интереснее.
Опять же, первую запись вы нашли в группе на конкретную тематику (например, магазины) и тамошние пользователи охотно ее обсуждают, но это не значит, что она всем зайдёт также легко.
Еще пример: скандальная желтая запись. Поднимает резонанс на короткое время, а потом прилетают пруфы, тема теряет актуальность, и все быстро расходятся. Но количество комментариев успела набрать, а тут вы ее репостите у себя. Желтая - по сути означает ложная. То есть к вам в ленту таким образом попадает фейк и портит вашу репутацию как новостной ленты.