alex-saratov
@alex-saratov

Как правильно вычислить итоговую частотную составляющую для текста?

Есть CRM. Одной из ее функций является обработка текстовых сообщений.
Фильтрация сейчас происходит по среднему значению частотности стоп слов. Сейчас оно рассчитывается как сумма частот всех слов деленное на количество слов. Но результат не совсем верный. Особенно это видно на сообщениях до 7 слов, когда все слова кроме одного имеют 0 вес, а последнее слово столь часто встречается в СПАМ сообщениях, что в итоге сообщение не проходит.
Собирался отдать подготовленный результат нейросети, но пока не понял, что лучше подавать на вход.
Вопросы:
Какие есть алгоритмы, чтобы можно было правильно прогнозировать результат?
Может есть что почитать на эту темы?
  • Вопрос задан
  • 128 просмотров
Пригласить эксперта
Ответы на вопрос 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Пользуюсь готовым инструментом: stumper.ru/use/isText
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы