Нейросеть для решения MNIST состоит 3 слоев:
1)входной [784]
2)скрытый [500]. функция активации RELU
3) Выходной[10].функция активации softmax
На скрине под цифрой 1 - input выходного слоя
На скрине под цифрой 2 - output выходного слоя(после применения softmax)
На скрине под цифрой 3 - максимальное значение производной по весам, соединящим 2 и слой
На скрине под цифрой 4 - среднее значение этой же производной
Очевидно, что с такими малыми значениями сеть не обучится. Что делать?