При распознавании речи проигрывать аудио-файлы связанные с определенными словами из текста речи?
ЗАДАЧА:
1. Человек говорит текст.
2. Какое-то ПО случает этот текст в реальном времени.
3. Это ПО имеет свою базу где каждому слову соответствует какой-то звук (аудиофайл)
4. И как только ПО распознает знакомое слово из своей базы - ПО тут же включает этот аудиофайл,
и продолжает случать дальше.
ПРИМЕР:
1. Человек говорит: "Съешь ещё этих мягких французских булок, да выпей же чаю."
2. ПО воспроизводит:
/мягких/ == audio1.ogg
/выпей/ == audio2.ogg
ВОЗМОЖНЫЕ РЕШЕНИЯ
Может что-то с Google Speech API cloud.google.com/speech-to-text/ для PHP
В ЧЕМ ПРОБЛЕМА ПОХОЖИХ РЕШЕНИЙ
Чем-то похожим занимается Чат-бот, например на dialogflow.com.
Но проблема Чат-ботов в том, что им нужно каждый раз говорить старт фразу, типа "Hey, Google" - "Play a sound if you know one of this word". Потом, чтобы Чат-бот выдал результат - человеку нужно прекратить говорить. Чат-бот обработает текст и выдаст аудиозвук. И так дальше.
У меня же стоит задача - воспроизводить эти звуки каждый раз когда Чат-бот распознает знакомое слово из своей базы, беспрерывно на протяжении когда человек говорит (например, просто читает стихотворение).
Надёжнее и проще убрать текстовое значение слов из цепочки.
Микрофон слушает всё подряд – некоторые звуковые паттерны, которым обучен, триггерят действие (воспроизведение аудиофайла).
Примерно так работают голосовые команды видеорегистраторам – например Xiaomi 70mai при стоимости ок 1500 руб. Слушают постоянно, "понимают" всего несколько команд. Прошивка с русификацией делает, в т.ч. и эти распознаваемые команды русскоязычными.