Можно ли как-то распознать конец фразы в Asterisk?
Сейчас есть технологии распознавания речи, например, OpenAI Whisper. Задумался, можно ли их как-то использовать, чтобы сделать что-то вроде умного автоответчика?
Пользователь делает звонок по телефону, мы его как-то принимаем через VoIP, например, через asterisk, проигрываем ему здрасccьте.mp3, записываем, что он нам говорит и (вот тут мне непонятно, магия) - как-то определяем, что он завершил вопрос, замолчал, в это время (тут дальше я уже более-менее представляю) мы mp3 файл с его голосом превращаем в текст и как-то реагируем. От простого проигрывания музыки, типа сервис "послушай песню по телефону", до обработки его запроса, генерации ответа, превращения его в голос и зачитывание ему.
Вопрос в том, можно ли как-то определить, что звонящий закончил говорить или у этой проблемы нет известного легкого решения? Надо либо на лету в реалтайме определить тишину (относительную тишину - на фоне ведь будет шум), либо может распознать кодовое слово ("Прием!").
Сейчас это чисто теоретический вопрос, из фантазии - жесткой привязки именно к asterisk'у нет (может быть это как-то иначе можно, если в нем сложнее).