vosk распознает оффлайн. Можно даже на рапсберри запустить (с небольшими моделями, конечно).
Умеет выдать просто текст, субтитры в формате srt или json с подробными метаданными по каждому слову, в том числе с его "уверенностью" в том, насколько точно распознано слово.