С полным кодовым контролем, есть LLamaSharp -
пример
С аудио не пробовал, но локально работает отлично (win11), с бекендом на процессоре (+avx) или GPU. Кушает кучу моделей в том числе на 32B параметров.
С частичным контролем можно использовать какой ни будь LLM "движок", например
Jan, и прокидывать in/out сообщения через
API Cortex.