Для музыки, сначала нужно ее сепарировать, отделить вокал от инструментов, сам я этим не занимался, из последних топовых решений есть это:
https://github.com/lucidrains/BS-RoFormer
Если погуглить, есть какой то gui для чуть по старее решений, там на выбор несколько моделей, в т.ч. удаляющих шумы.
https://github.com/Anjok07/ultimatevocalremovergui
А уже потом полученный чистый файл подсовывать whisper, он работает прямо сразу после установки из pip install (скачает указанную модель сам).
whisper лучший для русского языка из доступных локально, но помним что он может пропускать и придумывать тексты (классический пример, в конце субтитров добавляет выдуманного автора)