Какими методами пользоваться и где вообще почитать про создание нейронной сети, вход и выход которой - это аудио, причем разных длин и с прочими различиями.
Как пример (чисто пример), на вход аудио с шумом - на выходе без шума, причем реализовать это так: дать нейронке сто аудио с шумом и сто этих же аудио, но без шума и потом чисто предиктом.
Или на вход высоким голосом - на выход низким, таким же способом. И прочее, прочее.
Нейронка не нужна. Достаточно определится что вам надо, и использовать соответствующие методы из цифровой обработки сигналов.
Конкретнее с кодом не помогу. Но думаю на Питоне всё что вам нужно уже есть.