ffmpeg из командной строки вполне справится с задачей. Если известны временные метки «от» и «до».
Например, с 12-й секунды, длительностью 22 секунды (до 12+22=34-й секунды исходного видео) сохранить только звук в WAV:
ffmpeg \
-ss 12 \
-i video.mp4 \
-t 22 \
audio_12_34.wav