Часто вижу новости/видео про сети, обрабатывающие картинки/видео/музыку/текст. Собственно с изображениями и текстом ясно как происходит подготовка. А как нейросети обрабатывают музыку, чтобы на выходе получался такой же файл, который можно воспроизвести плеером?