Как нормализировать разноплановые данные для подачи на вход нейронной сети?

Question

Dreammaker @Dreammaker

Как нормализировать разноплановые данные для подачи на вход нейронной сети?

Хотим сделать что-то типа фильтрации спама и проблемных материалов для проекта. Если бы было просто удалить/оставить и по тексту, то вроде сложности нет. Но в реальности получается, что нужно брать не только заглавие материала и его текст, но и номер раздела, данные по региону откуда попал ну и куча других параметров, часто чисельных.

И если допустим текст размером 1000 символово, но номер региона 1002 или раздела 23 просто потеряются на общем фоне и количестве текста. При этому нужно придумать такую «формулу», чтобы можно было по потребности подставлять новые параметры, а параметры самой сети особо менять не нужно было.

Для непрерывного обучения будем смотреть в сторону самоорганизующихся карт Кохонена. Остается вот этот вопрос — как нормализировать разноплановые данные?

Заранее спасибо!

Вопрос задан более трёх лет назад
4447 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 1 подписчик
- 20 авг.
- 98 просмотров
2

ответа
Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 89 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 83 просмотра
1

ответ
Видео

+1 ещё

Простой
Нейросеть для перевода видео?
- 2 подписчика
- 07 авг.
- 313 просмотров
2

ответа
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 166 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 288 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 66 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2012-11-17 01:07:48

Можно попробовать брать функцию интегрального распределения от каждого параметра или небольшой группы параметров. На выходе функции будет значение от нуля до единицы. Причем каждое значение будет встречаться приблизительно одинаково часто.

Answer 2 · 2012-11-16 14:37:44

Посмотрите на spamassassin, там используется множество тестов и расставлены веса для результатов этих тестов.

Анализ текста один из них.

Как нормализировать разноплановые данные для подачи на вход нейронной сети?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт