Как разработать распознаватель речи?

Question

T_y_l_e_r @T_y_l_e_r

Как разработать распознаватель речи?

Мне нужно что то не стандартное, не просто апи или сервис в интернете.
Мне нужна сама технология.
Допустим я записываю свои фразы, своим голосом, и делаю ассоциации с текстом или командами.
Как сделать чтобы распозновался не просто мой голос но и голоса других людей с разными интонациями.
Давным давно был телефон с черно белым экраном, он умел обучаться и выполнять команды.
Вот нужно тоже самое чтобы сделать джарвина :)

Что почитать? посмотреть?

Вопрос задан более трёх лет назад
2047 просмотров

4 комментария

Подписаться 5 Оценить 4 комментария

Sayonji @Sayonji

Хе-хе, серьезно?

Написано более трёх лет назад
T_y_l_e_r @T_y_l_e_r Автор вопроса

на счет телефона? это был 2001 год, телефон Alcatel ot 511

Написано более трёх лет назад
T_y_l_e_r @T_y_l_e_r Автор вопроса

он умел распознавать голос и выполнять команды, это 15 лет назад!

Написано более трёх лет назад
Максим @khrisanfov

T_y_l_e_r: думаю надо научиться работать со звуком для начала, как его кодировать, раскладывать на простые элементы понятные алгоритму. Затем надо копать в сторону методов машинного обучения, это будет классификация в вашем случае. Методов много, каждый хорошо работает на определенном наборе данных. Вам надо будет записать одну и ту же команду раз 10 например разными людьми, скормить методу обучения, построить модель, которая будет предсказывать команду для новых поступивших голосом команд. Примерно так я вижу решение вашей задачи.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 109 просмотров
1

ответ
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 1 подписчик
- 07 июл.
- 64 просмотра
1

ответ
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 103 просмотра
1

ответ
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 176 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 106 просмотров
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 209 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 551 просмотр
2

ответа
C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 189 просмотров
1

ответ
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Показать ещё Загружается…

на счет телефона? это был 2001 год, телефон Alcatel ot 511
он умел распознавать голос и выполнять команды, это 15 лет назад!
T_y_l_e_r: думаю надо научиться работать со звуком для начала, как его кодировать, раскладывать на простые элементы понятные алгоритму. Затем надо копать в сторону методов машинного обучения, это будет классификация в вашем случае. Методов много, каждый хорошо работает на определенном наборе данных. Вам надо будет записать одну и ту же команду раз 10 например разными людьми, скормить методу обучения, построить модель, которая будет предсказывать команду для новых поступивших голосом команд. Примерно так я вижу решение вашей задачи.

Answer 1 · 2016-12-21 23:02:42

https://habrahabr.ru/post/226143
main-qimg-0a08673613281869f6b80d3e05754c

на вскидку нашел такие источники.
задача, кстати, сложная и для новичка вероятно неподъемная

Answer 2 · 2016-12-22 16:16:54

Технология может быть такой. Сначала разбивка по времени и спектральный анализ. Советую применить вейвлеты. Затем выделение фонем (составьте словарь). А из фонем составляйте слова. Но это долгий путь. Самое лучшее - как раз API (напр. Speech API от Microsoft).

Как разработать распознаватель речи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт