Для начала полезно смотреть на 2 графика -- количество ошибок в тестовой и обучающей выборке по эпохам.
learn_rates это коэффициент который соответствует скорости обучения. Если ошибка уменьшается плавно, но медленно -- увеличиваем. так же влияет на вероятность попасть в локальный минимум.
learn_rate_decays -- затухание learn_rates со временем. Суть в том, что точное решение ищем с меньшей скоростью когда уже нашли хорошее приближение.
epochs -- собственно прогоны обучающей выборки. Когда графики некоторое время остаются на месте, продолжать обучение смысла нет.
verbose -- не относится к обучению. Если True печатает какую-то дополнительную информацию в процессе.
Еще графики помогут определиться со сложностью сети(количество слоев, нейронов в них). Если точность на обучающей выборке намного выше чем на тестовой -- переобучение. Это значит что модель слишком хорошо адаптировалась к обучающей выборке, "запомнила" ее, но плохо работает на незнакомых данных. Уменьшаем сложность модели. Если графики не сильно отличаюстя, но результат плохой -- нужно увеличивать сложность модели.