Как нормализировать разноплановые данные для подачи на вход нейронной сети?

Хотим сделать что-то типа фильтрации спама и проблемных материалов для проекта. Если бы было просто удалить/оставить и по тексту, то вроде сложности нет. Но в реальности получается, что нужно брать не только заглавие материала и его текст, но и номер раздела, данные по региону откуда попал ну и куча других параметров, часто чисельных.

И если допустим текст размером 1000 символово, но номер региона 1002 или раздела 23 просто потеряются на общем фоне и количестве текста. При этому нужно придумать такую «формулу», чтобы можно было по потребности подставлять новые параметры, а параметры самой сети особо менять не нужно было.

Для непрерывного обучения будем смотреть в сторону самоорганизующихся карт Кохонена. Остается вот этот вопрос — как нормализировать разноплановые данные?

Заранее спасибо!
  • Вопрос задан
  • 4447 просмотров
Решения вопроса 1
@dtestyk
Можно попробовать брать функцию интегрального распределения от каждого параметра или небольшой группы параметров. На выходе функции будет значение от нуля до единицы. Причем каждое значение будет встречаться приблизительно одинаково часто.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@mithraen
Посмотрите на spamassassin, там используется множество тестов и расставлены веса для результатов этих тестов.

Анализ текста один из них.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы