Как правильно вычислить итоговую частотную составляющую для текста?
Есть CRM. Одной из ее функций является обработка текстовых сообщений.
Фильтрация сейчас происходит по среднему значению частотности стоп слов. Сейчас оно рассчитывается как сумма частот всех слов деленное на количество слов. Но результат не совсем верный. Особенно это видно на сообщениях до 7 слов, когда все слова кроме одного имеют 0 вес, а последнее слово столь часто встречается в СПАМ сообщениях, что в итоге сообщение не проходит.
Собирался отдать подготовленный результат нейросети, но пока не понял, что лучше подавать на вход.
Вопросы:
Какие есть алгоритмы, чтобы можно было правильно прогнозировать результат?
Может есть что почитать на эту темы?