Когда то в похожей ситуации я долго искал, готовых средств нет.
Спасался запуском двух плееров с разными настройками (media player classic под windows) и терпел минимальную рассинхронизацию.
В одной ситуации я делал 4-ех канальный звуковой файл с помощью ffmpeg, последовательно сначала извлекал дорожки а потом соединял, при указании видеокодека как copy процесс достаточно быстрый, а для проигрывания на разные устройства вывода (колонки и наушники) просто вставлял наушники как 3 и 4 колонки и включал квадро в настройках операционной системы.