Понимая как это устроено, я бы ни в жизь не задумался о таком извращении,.. лучшие библиотеки распознавания речи используют трансформер, а тот в свою очередь хорошую реализацию имеет на python (понятно что есть по до все, например на c)... например открытый код от openai - whisper. Все же требуется максимум производительности от железа, и лишние прослойки виртуализации не желательны.
Никогда бы не подумал что кому то будет не пофиг и кто то это реализовал (как я понимаю используя webasm)
https://www.assemblyai.com/blog/offline-speech-rec...