Масштабирование данных - один из основных шагов. К тому же признаки вашего набора данных имеют разный масштаб, поэтому перед обучением ИНС выполняйте масштабирование данных. Обычно делают отдельное масштабирование для входного вектора (Х) и целевого (Y) по причине меньшего объёма кода при выполнении оценки результатов.
Пробовали разные архитектуры модели? Где у вас функция активации для всех слоёв (кроме выходного)? Размер batch_size=1 тоже вызывает удивление.
Поищите статьи в интернете про реккуретные нейронные сети. Я бы вам порекомендовал начать с этой:
ссылка.