Делал первые полносвязные сети по этой статье, наиболее понятная. После проб из входа на 3 нейрона и 1 выход начал делать нейросеть на 2 скрытых слоя с входом из 100 значений (изображение 10х10 чб) для распознавания цифр от 0 до 9 - и всё заработало. Советую попробовать. Биас используете? Какая скорость обучения, функция активации?
Статья