насколько я понял, тут стоит проблема чтобы НЕ перекодировать хотя бы видео.
Отделить все равно придется демуксером, это быстро, после этого, со звуком можно делать все подряд (но лучше без временной коррекции ;) ). Потом кодирование любым подвернувшимся кодировщиком в исходный формат, потом муксером клеить с видео, это тоже быстро, видео остается нетронутым.