ИИ способный генерировать звуки по описанию(Например шаги)
— Приблизительно так же, как это делают студенты при изучении
Turbo Pascal. А если нужно по шагам, то писать программу лучше всего на языке
java, используя встроенный в телефон
акселерометр.
как обучать и как собственно генерировать конечный файл?
— Обучать по описанию "что такое шаг?" и как на него реагировать. Конечный файл, если имеется ввиду звука - обычный .mp3 или .wav