Есть в общем то более подходящие инструменты. А так в случае Виндоуз строите граф DirectSound захватываете звук и отправляете post запрос хоть на яндекс хоть на Microsoft. В ответ вам приходят варианты распознавания в виде Json
// и вообще так себе идея называть список словом текст, лучше
List<string> text = new List<string>();
private readonly List<string> _translatedTextLines = new List<string>();
var output = string.Join("\n",text);