При распознавании речи проигрывать аудио-файлы связанные с определенными словами из текста речи?

Question

Gordon__Freeman @Gordon__Freeman

Распознавание речи

При распознавании речи проигрывать аудио-файлы связанные с определенными словами из текста речи?

ЗАДАЧА:
1. Человек говорит текст.
2. Какое-то ПО случает этот текст в реальном времени.
3. Это ПО имеет свою базу где каждому слову соответствует какой-то звук (аудиофайл)
4. И как только ПО распознает знакомое слово из своей базы - ПО тут же включает этот аудиофайл,
и продолжает случать дальше.

ПРИМЕР:
1. Человек говорит: "Съешь ещё этих мягких французских булок, да выпей же чаю."
2. ПО воспроизводит:
/мягких/ == audio1.ogg
/выпей/ == audio2.ogg

ВОЗМОЖНЫЕ РЕШЕНИЯ
Может что-то с Google Speech API cloud.google.com/speech-to-text/ для PHP

В ЧЕМ ПРОБЛЕМА ПОХОЖИХ РЕШЕНИЙ
Чем-то похожим занимается Чат-бот, например на dialogflow.com.
Но проблема Чат-ботов в том, что им нужно каждый раз говорить старт фразу, типа "Hey, Google" - "Play a sound if you know one of this word". Потом, чтобы Чат-бот выдал результат - человеку нужно прекратить говорить. Чат-бот обработает текст и выдаст аудиозвук. И так дальше.
У меня же стоит задача - воспроизводить эти звуки каждый раз когда Чат-бот распознает знакомое слово из своей базы, беспрерывно на протяжении когда человек говорит (например, просто читает стихотворение).

Спасибо!

Вопрос задан более трёх лет назад
4777 просмотров

3 комментария

Подписаться 6 Средний 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Data Scientist: расширенный курс

20 месяцев

Далее
Skillbox

Нейросети с нуля: ваш ИИ-ассистент для жизни и работы

2 месяца

Далее
GB (GeekBrains)

Специалист по внедрению ИИ

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Простой
Диктовалки (speech to text) под Линукс?
- 2 подписчика
- 23 янв.
- 355 просмотров
2

ответа
JavaScript

+1 ещё

Простой
Есть ли js-библиотека для офлайн-распознавания русской речи?
- 1 подписчик
- 12 окт. 2025
- 215 просмотров
1

ответ
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент. 2025
- 120 просмотров
1

ответ
Машинный перевод с одного языка на другой

+1 ещё

Простой
Надёжный распознаватель речи в текст на разных языках?
- 2 подписчика
- 06 мая 2025
- 1200 просмотров
2

ответа
Windows

+1 ещё

Простой
Как на компе с виндой набивать голосом текст на русском языке, с качеством не хуже чем у клавиатуры gboard для Android?
- 1 подписчик
- более года назад
- 247 просмотров
2

ответа
Windows

+1 ещё

Простой
Насколько хороша Cortana встроенная в Win11 для распознавания русской речи?
- 1 подписчик
- более года назад
- 207 просмотров
1

ответ
C++

+2 ещё

Простой
Как обучить акустическую модель?
- 2 подписчика
- более года назад
- 160 просмотров
0

ответов
Нейронные сети

+1 ещё

Сложный
Какой использовать стек для создания полностью локального STT-LLM-TTS русско-английского голосового ассистента?
- 3 подписчика
- более года назад
- 1802 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Как сделать голосовой командный интерфейс?
- 1 подписчик
- более года назад
- 69 просмотров
0

ответов
Node.js

+1 ещё

Простой
Как перевести аудио в текст в Яндекс SpeechKit v3?
- 2 подписчика
- более года назад
- 390 просмотров
1

ответ
Показать ещё Загружается…

PHP и Node.js разработчик

TripShock Adventures

от 1 000 до 2 500 $

Golang Developer

Правое полушарие Интроверта

от 200 000 до 300 000 ₽

Системный архитектор

ГК «ЭФКО» • Москва

До 360 000 ₽

А реальный пример применения для общего понимания - можно?
Надеюсь, сделают гаджет, отучающий ругаться матом )
Сергей Соколов, Надеюсь сделают гаджет, отучающий делать гаджет...

Answer 1 · 2019-08-21 22:49:56

Это ПО имеет свою базу где каждому слову соответствует какой-то звук (аудиофайл)

базу собираешь сам, из Гугл транслейта

Какое-то ПО случает этот текст в реальном времени.

подключаешь одно из 6 speech API - переводишь речь в текст

сравниваешь текст, проигрываешь файл

PROFIT

Answer 2 · 2019-08-21 23:46:11

Надёжнее и проще убрать текстовое значение слов из цепочки.

Микрофон слушает всё подряд – некоторые звуковые паттерны, которым обучен, триггерят действие (воспроизведение аудиофайла).

Примерно так работают голосовые команды видеорегистраторам – например Xiaomi 70mai при стоимости ок 1500 руб. Слушают постоянно, "понимают" всего несколько команд. Прошивка с русификацией делает, в т.ч. и эти распознаваемые команды русскоязычными.

Answer 3 · 2019-08-22 11:22:13

Спасибо за рекомендации - буду пробовать..

Вот еще нашел, вроде бы и точно такой же запрос, но на других технологиях - Распознавание речи, непрерывно считывая сигнал с микрофона?

При распознавании речи проигрывать аудио-файлы связанные с определенными словами из текста речи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт