у ffmpeg есть
фильтр arnndn который как раз отделяет речь от фона, с помощью рекуррентных нейросетей.
Параметром
model
необходимо передать одну из готовых моделей. Поиском нашлись, например, модели
richardpl/arnndn-models
Дальше пробовать и пробовать.
Возиться с Использовать ffmpeg есть смысл только, если планиурете выкатить решение, которое будет обрабатывать снова и снова новые файлы.
Если задача подправить единственный файл, наверное, лучше поискать другие решения. Например, в бесплатном аудио-редакторе Audacity есть фильтр для выделения речи от фона. Или найти онлайн-сервис — такие есть.