Как правильно формировать данные для нейросети?

Question

retr0 @retr0

Как правильно формировать данные для нейросети?

Ради интереса решил попробовать написать примитивную нейросеть, для классификации текстовых предложений по типам (Вопрос, утверждение, шутка и т.д.). Вручную натыкал примерно 400 сообщений для тренировки сети, каждому присвоил соответствующий тип. Столкнулся с проблемой в моделировании сети, т.к. для формирования входного слоя решил использовать базу русских слов во всех морфологических формах (А там около 1 500 000 слов). То есть количество входных нейронов у нас равно количеству слов в базе, а их значения либо 0 (если слова из базы нет в сообщении) либо 1 (если слово из базы есть в сообщении).
И очевидно столкнулся с тем, что мой пк не в силах осилить подобный труд, как и любой пк в мире, я полагаю) Поэтому стало интересно как поступают умные люди в подобных ситуациях, к примеру когда нужно обработать изображение очень высокого качества и с большим разрешением.
Заранее прошу не кидаться в меня помидорами, так как тему только осваиваю и понимаю местами поверхностно)

Вопрос задан более трёх лет назад
186 просмотров

Комментировать

Подписаться 4 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
karpov.courses

Нейросети для работы

1 месяц

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 237 просмотров
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 317 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 283 просмотра
1

ответ
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 329 просмотров
5

ответов
Unity

+2 ещё

Простой
Почему Visual Studio не может найти библиотеку Unity.Sentis, если соответствующий плагин уже установлен в проект и даже смог конвертировать файл?
- 1 подписчик
- 24 апр.
- 89 просмотров
1

ответ
Искусственный интеллект

Простой
OpenRouter грозит не дать доступ россиянам?
- 3 подписчика
- 16 апр.
- 1121 просмотр
0

ответов
Искусственный интеллект

Простой
Как подключить OpenClaw к OpenwebUI?
- 2 подписчика
- 09 апр.
- 212 просмотров
1

ответ
Искусственный интеллект

Простой
Как решить длинные диалоги с ИИ?
- 1 подписчик
- 07 апр.
- 365 просмотров
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 214 просмотров
1

ответ
Искусственный интеллект

Простой
Не работают генерации ии в cap cut?
- 1 подписчик
- 27 мар.
- 6629 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-08-01 19:56:09

Не знаю почему вы сами не стали искать информацию, её просто море.
Но всё же, краткая выжимка такая:
По поводу текста. Да, слова кодируют, но не обычным числом, а вектором большой размерности, например двенадцати-мерное пространство, вообразить практически не возможно. Созданием такого вектора занимается тоже нейронка. Впрочем такие векторы уже давно созданы и их можно скачать. Есть даже для русского языка. Их главная фишка в том, что если из вектора "женщина" вычесть вектор "мужчина" и прибавить эту дельту к вектору "король" мы получим вектор "королева".
Второе, для обработки текста используют нейронные сети в "памятью". Т.е. на вход подаётся очередное слово из предложения с неким состоянием от предыдущего прохода.
Про изображения - никто не запихивает 4К фотку в сетку. Либо нарезают изображение на маленькие кусочки, либо сжимают. Напомню что первые соревнования по классификации изображений cifar-10 были на картинках 16х16 пикселей. На вход сети VGG, например, подают изображения 224х224 пикселя.

Как правильно формировать данные для нейросети?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт