Добрый день.
Существует набор текстов. В этом наборе присутствуют не значимые сообщения из разряда "+100500", "И я того же мнения", так и значимые "Ангара обошлась государству слишком дорого", "Произошедшее в Сибири просто поражает".
Т.е. значимость, для данной задачи определяется возможностью "привязать" сообщение к определенной теме. Требуется грубо(быстро) отобрать значимые тексты.
Подскажите, какие подходы могут быть?
Пока в голову пришло только с помощью mystem/phpmorphy определять какие части речи в каком соотношении встречаются и по этому коэф. фильтровать... Однако это явно будет не особо эффективно и может отбрасывать значимые тексты...