1. Стоимость решения будет зависеть от функционала конвертера.
Если вы готовы сами вытащить аудиодорожку из видео, и вам только не хватает шага "файл аудио -> API -> файл с текстом", то цена реализации в виде скрипта, написанного на коленке, будет минимальна.
Если вам нужно делать синхронные субтитры к видео, выделять фрагменты видео, где нужно добавить субтитры, редактировать субтитры после их получения. То это совсем другой функционал и другой ценник.
2. Не знаком с предметной областью, нужно изучать аналоги приложений.