Да-а, сперва завис над
"Очевидно, что с такими малыми значениями сеть не обучиться".)) Почему вы так считаете?
Как правило, на вход нейронных сетей данные подаются в отмасштабированном (нормализованном виде). Поэтому сперва переведите матрицы
X_train и
X_test из целочисленных значений на отрезке [0,255] (image набора данных MNIST) к вещественным на [0,1].
Вероятно, у вас не совсем подходящая архитектура сети. Опирайтесь на образец:
ссылка, благодаря которому набор данных MNIST "расщёлкали" с эффективностью 99.25%.