Какую архитектуру выбрать для нейросети, решающей задачу преобразования матрицы?

Question

Дмитрий Русаков @Daemon2017

Какую архитектуру выбрать для нейросети, решающей задачу преобразования матрицы?

Здравствуйте!

На руках имеется 10 тысяч пар матриц (входная и выходная) 100*100, причем входную можно преобразовать во выходную, применив некий закон, который мне неизвестен.
Входные матрицы содержат дробные значения широкого диапазона: от нуля до нескольких тысяч (95% - нули), а выходные - целочисленные значения (95% - нули), отражающие принадлежность к одному из 16 классов.

Помимо этого, есть 1 тысяча входных матриц 100*100, для которых нужно более-менее точно воспроизвести выходные.

Первая мысль, которая мне пришла в голову, это то, что передо мной задача регрессии, а значит нейросети должны помочь. Т.к. входная и выходная матрицы имеют равную размерность, то осмысленно использовать архитектуру вида U-Net/DeconvNet/SegNet/RedNet/FCN. Выбор пал на RedNet:
1*QePoqFW4vS4BKmODXZqRXA.png

Если использую активационную функцию последнего слоя Sigmoid, то, после обучения на 2.5к образцов, получаю точность около 0.5 и полную кашу в выходных данных. Если активационная функция ReLu, то точность получается 0.9, но в выходных данных правильно определяются только нули, а остальные значения уходят за пределы тысячи.

Ранее доводилось обучать только U-Net в задаче сегментации на "дорога есть" и "дороги нет".

Не ошибся ли я с выбором архитектуры?
Если нет, то, полагаю, ошибся я в том, как обучаю нейросеть: нужно разбить выходную матрицу на 16 матриц-масок, где содержалась бы информация о наличии только конкретного класса в данной ячейке матрицы. Т.е. как это делается в U-Net, когда осуществляется сегментация на несколько классов. Ну и активационная функция последнего слоя будет SoftMax, а выходных масок будет 16. Верна ли моя догадка?

Вопрос задан более трёх лет назад
546 просмотров

2 комментария

Подписаться 7 Простой 2 комментария

Решения вопроса 1

3 комментария

Дмитрий Русаков @Daemon2017 Автор вопроса

Да, всё именно так.

Из того, что я подметил: все значения, кроме первой строки, в каждом столбце зависят от значений в столбцах слева от него, причем в каждом столбце значения в строках зависят еще и от значений строк, стоящих выше в этом же столбце. Т.е. эдакий градиент движется слева направо, сверху вниз.

Других зависимостей я не выявил. По сути, содержимое матрицы задают значения в 1-й строке, т.к. только они независимы и, кажется, случайны.
Думаю, что сверточной нейросети это под силу, если в поле восприятия нейрона будут попадать все значения, что левее и выше.

Спасибо! Теперь сомнений нет - буду делать так :)
Кстати, а почему argmax + 1? Чтобы не создавать отдельный класс под нуль?

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

Похоже на правду.
argmax + 1 - это если у вас метки классов начинаются с 1, если с 0, то прибавлять единичку не требуется :)

Написано более трёх лет назад
Дмитрий Русаков @Daemon2017 Автор вопроса

Владимир Олохтонов, спасибо! :)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 71 просмотр
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 72 просмотра
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 141 просмотр
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 223 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 64 просмотра
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 59 просмотров
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 215 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 142 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Эксперт по транспортной сети/Сетевой инженер

НТЦ ПРОТЕЙ • Санкт-Петербург

от 200 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

блин,как же хочется таким же заниматься,но к сожалению математика тяжко дается
Иван, начните со школьной программы по алгебре, станет проще)

Answer 1 · 2018-05-10 11:17:20

Я правильно понял, что вам нужно каждую ячейку матрицы 100x100, структура и правила формирования которой вам не известны, классифицировать в один из 16 классов?

Какая природа данных? Вполне может быть так, что сверточные слои здесь не уместны.

В общем случае вам нужен выходной слой с 16-мерным Softmax на каждый пиксель (получается тензор размерности batch*100*100*16), потом вы берёте для каждого пикселя argmax + 1, и в качестве функции потерь используете кросс-энтропию.

UPD: до меня тут дошло, что во время обучения лучше не брать argmax, а вместо этого применить One-Hot-Encoding на матрицу классов, чтобы получить тензор той же размерности, что и прогнозный.

argmax пригодится на этапе постпроцессинга, когда сеть у вас уже обучена и выдаёт корректные вероятности для классов.

Какую архитектуру выбрать для нейросети, решающей задачу преобразования матрицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт