Почему уровень ошибки при обучении ведет себя так?
Есть нейронная сеть, с тремя слоями, принимающая на вход картинки из базы mnist. Соответственно в входном слое 784 нейрона, по одному на каждый пиксель. В скрытом слое 30 нейронов, на выходном десять, по одному на каждый класс. На скрытом слое в качестве функции активации используется tanh, на выходном - softmax. В качестве функции потерь используется кросс-энтропия. Тренировочный сет имеет 60000 картинок. Обучаю сеть методом стохастического градиентного спуска, выборки из 5, 10, 100(это не важно, результат в целом не меняется) рандомных элементов обучающего множества.