@roman22275

Как обучить нейросеть со слоем Relu+Softmax?

Нейросеть для решения MNIST состоит 3 слоев:
1)входной [784]
2)скрытый [500]. функция активации RELU
3) Выходной[10].функция активации softmax
5dc3094a5e42e834884667.png
На скрине под цифрой 1 - input выходного слоя
На скрине под цифрой 2 - output выходного слоя(после применения softmax)
На скрине под цифрой 3 - максимальное значение производной по весам, соединящим 2 и слой
На скрине под цифрой 4 - среднее значение этой же производной
Очевидно, что с такими малыми значениями сеть не обучится. Что делать?
  • Вопрос задан
  • 95 просмотров
Пригласить эксперта
Ответы на вопрос 1
@OLZ1
Да-а, сперва завис над "Очевидно, что с такими малыми значениями сеть не обучиться".)) Почему вы так считаете?
Как правило, на вход нейронных сетей данные подаются в отмасштабированном (нормализованном виде). Поэтому сперва переведите матрицы X_train и X_test из целочисленных значений на отрезке [0,255] (image набора данных MNIST) к вещественным на [0,1].
Вероятно, у вас не совсем подходящая архитектура сети. Опирайтесь на образец: ссылка, благодаря которому набор данных MNIST "расщёлкали" с эффективностью 99.25%.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы