whisper от openai (apache2.0 лицензия) и его производные, на текущий момент лучшая модель общего назначения. Лицензия позволяет пользоваться этим но при включении его в тиражируемые продукты, лицензия на исходный код этих производных продуктов так же должен быть открыт.
Так же модели по работе со звуком есть у всех топовых компаний, например у мозиллы deepspeech и у фейсбука, и у гугла, и у китайского qwen и т.п. но под вопросом качество русского языка,
полистай, осторожно тут все в кучу свалено, не только прямая трансляция но и к примеру токенизаторы, векторизаторы и т.п.