ffmpeg позволяет работать с audio и video независимо, не пережимая video, т.е. достаточно будет перепаковать только звук, это минуты.
Общая идея - выявляешь временные метки, где нужно заменить кусок звуковой дорожки, затем вырезаешь соответствующие части дорожки в отдельные файлы, и собираешь обратно, подменив вырезанные куски на свой пустой.
Лучше читать документацию и гуглить примеры, с фильтром или без