Попробуйте библиотеку для распознавания речи с открытым исходным кодом "Воск":
https://github.com/alphacep/vosk-api
Преимущества библиотеки:
- Поддерживает 9 языков - русский, английский, немецкий, французский, португальский, испанский, китайский, турецкий, вьетнамский. В скором времени будут добавлены и другие
- Работает без доступа к сети даже на мобильных устройствах - Raspberry Pi, Android, iOS
- Устанавливается с помощью простой команды pip3 install vosk без дополнительных шагов
- Модели для каждого языка занимают всего 50Мб, но есть и гораздо более точные большие модели для более точного распознавания
- Сделана для потоковой обработки звука, что позволяет реализовать мгновенную реакцию на команды
- Поддерживает несколько популярных языков программирования - Java, C#, Javascript
- Позволяет быстро настраивать словарь распознавания для улучшения точности распознавания
- Позволяет идентифицировать говорящего
Для распознавания радиопередач можно установить сервер из docker, проект здесь
https://github.com/alphacep/vosk-server
Запускается одной командой:
docker run -d -p 2700:2700 alphacep/kaldi-en:latest