Как отсеить незначимые тексты?

Добрый день.
Существует набор текстов. В этом наборе присутствуют не значимые сообщения из разряда "+100500", "И я того же мнения", так и значимые "Ангара обошлась государству слишком дорого", "Произошедшее в Сибири просто поражает".
Т.е. значимость, для данной задачи определяется возможностью "привязать" сообщение к определенной теме. Требуется грубо(быстро) отобрать значимые тексты.

Подскажите, какие подходы могут быть?
Пока в голову пришло только с помощью mystem/phpmorphy определять какие части речи в каком соотношении встречаются и по этому коэф. фильтровать... Однако это явно будет не особо эффективно и может отбрасывать значимые тексты...
  • Вопрос задан
  • 2402 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы