Главная проблема - с чего начать? Можете подсказать как лучше все это организовать, какое ПО может пригодиться?
Ну вообще, на мой взгляд всё просто.
Пишем простенький интерфейс, который позволит выбрать файл с видео и загрузить на сервер (хватит даже PHP), на сервере с помощью ffmpeg вытаскиваем звук и отправляем обратно пользователю.
Свистоперделки можно прикрутить уже позже.