Боролся с такой же проблемой. Сеть почти такая же.
Пока на просторах интернета нашел то, что в нашем случае ошибку ищем по MSE.
На небольшой сети работает на отличненько. К масштабируемости очень привередливый способ.
Если формулы в формулах не теряетесь, то Binary cross-entropy возможное решение.
https://towardsdatascience.com/understanding-binar... - на примере показана логистическая регрессия, но можно применить и к нашей модели. Сам разбираюсь как. Если найду решение отпишу.
P.S. Странно что сыпется уже на 9 входящих параметрах... мне вообще требуется 568))