Как нормализировать разноплановые данные для подачи на вход нейронной сети?
Хотим сделать что-то типа фильтрации спама и проблемных материалов для проекта. Если бы было просто удалить/оставить и по тексту, то вроде сложности нет. Но в реальности получается, что нужно брать не только заглавие материала и его текст, но и номер раздела, данные по региону откуда попал ну и куча других параметров, часто чисельных.
И если допустим текст размером 1000 символово, но номер региона 1002 или раздела 23 просто потеряются на общем фоне и количестве текста. При этому нужно придумать такую «формулу», чтобы можно было по потребности подставлять новые параметры, а параметры самой сети особо менять не нужно было.
Для непрерывного обучения будем смотреть в сторону самоорганизующихся карт Кохонена. Остается вот этот вопрос — как нормализировать разноплановые данные?
Можно попробовать брать функцию интегрального распределения от каждого параметра или небольшой группы параметров. На выходе функции будет значение от нуля до единицы. Причем каждое значение будет встречаться приблизительно одинаково часто.
Спасибо и вам! Я, кстати, в конце концов пришел кв чем-то похожему по смыслу решению. Все значения решил представить как многоугольник на плоскости, где X — номер параметра, а Y — величина параметра. Далее вычисляется центр тяжести этого многоугольника и дальше уже можно или использовать 2 значения, или их свести к одному, например, получив угол наклона прямой, которая идет от 0,0 к этой точки. В последующем полученную величину (величины) можно использовать как корректирующий коэффициент для данных полученных при обработке текста.