Задать вопрос

Как отсеить незначимые тексты?

Добрый день.
Существует набор текстов. В этом наборе присутствуют не значимые сообщения из разряда "+100500", "И я того же мнения", так и значимые "Ангара обошлась государству слишком дорого", "Произошедшее в Сибири просто поражает".
Т.е. значимость, для данной задачи определяется возможностью "привязать" сообщение к определенной теме. Требуется грубо(быстро) отобрать значимые тексты.

Подскажите, какие подходы могут быть?
Пока в голову пришло только с помощью mystem/phpmorphy определять какие части речи в каком соотношении встречаются и по этому коэф. фильтровать... Однако это явно будет не особо эффективно и может отбрасывать значимые тексты...
  • Вопрос задан
  • 2404 просмотра
Подписаться 5 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Яндекс Практикум
    Java-разработчик
    10 месяцев
    Далее
  • Яндекс Практикум
    Python-разработчик расширенный
    14 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы