Как правильно создать датасет голосовых команд?

Question

Art_Sh82 @Art_Sh82

Как правильно создать датасет голосовых команд?

Всем привет.
Делаю систему распознавания голосовых команд на базе нейросети Tensor flow lite. Работает она на МК с ядром Cortex m4
Интересует правильный алгоритм подготовки датасета образцов произношения голосовых команд и последующего обучения. На данный момент поступал так: собирал (записывал) образцы произношения команд, приводил все файлы к одному виду и затем этим датасетом обучал сетку. Записи делались в условиях тишины. Система заработала, команды распознаются, но только в условиях тишины. Как сделать систему более толерантную к окружающему шуму?
Какой вообще правильный алгоритм создания датасета и обучения сетки? Читал, что как то подмешивают шум - добавляют файлы с записями шумов в датасет, но толковой инфы не нашел. Заранее спасибо за ответы.

Вопрос задан более трёх лет назад
253 просмотра

2 комментария

Подписаться 1 Средний 2 комментария

Saboteur @saboteur_kiev

Ну Кортана, Алекса, ok Google в условиях шума тоже практически не работают.
То есть IMHO это задача не такая простая, чтобы можно было найти толковую инфу по решению. Скорее если вы такое напишете, вас с рукам оторвут крупнейшие конторы мира.

А так - пробуйте частотно отрезать шум и обрабатывать звук перед распознаванием.

Написано более трёх лет назад
Art_Sh82 @Art_Sh82 Автор вопроса

Saboteur,
возможно не совсем корректно описал вопрос.
Как правильно создавать датасет? Записывать все голосовые команды в условиях студии звукозаписи или можно в условиях реальных окружающих шумов? Или записывать команды используя ту же обработку звукового сигнала, как и для распознавания: обрезка по частоте, АРУ, шумоподавление, эхоподавление.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Нейросети для анализа данных

9 недель

Далее
Яндекс Практикум

Нейросети для работы

2 месяца

Далее
Skillfactory

Курс по нейронным сетям

10 недель

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 95 просмотров
2

ответа
Arduino

+1 ещё

Средний
Почему в самописном приёмнике данные не принимаются без Serial.print()?
- 1 подписчик
- 19 дек.
- 68 просмотров
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 233 просмотра
1

ответ
C

+4 ещё

Средний
Почему прошивка для STM32F103 не запускается после перехода с Keil на Cmake?
- 1 подписчик
- 11 дек.
- 114 просмотров
0

ответов
Мобильные устройства

+1 ещё

Простой
Какой девайс взять, чтоб за границей говорить и слушать иностранцев?
- 6 подписчиков
- 08 дек.
- 674 просмотра
6

ответов
Микроконтроллеры

Простой
Какой модуль на основе ESP8266 выбрать для старта ребёнку 13 лет?
- 4 подписчика
- 25 нояб.
- 485 просмотров
4

ответа
Системное администрирование

+2 ещё

Средний
Сервер с GPU предназначен ли для запуска фронтенда/бэкенда или он для вычислений?
- 1 подписчик
- 08 нояб.
- 335 просмотров
1

ответ
Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 138 просмотров
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 123 просмотра
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 102 просмотра
2

ответа
Показать ещё Загружается…

Специалист по управлению мастер данными

Vital Partners

от 200 000 до 270 000 ₽

Technical support (Ассистент Product Owner)

uKit Group • Ростов-на-Дону

от 50 000 до 55 000 ₽

Fullstack разработчик Middle+ / .NET + React / Трейдинг тематика

LCap • Алматы

До 2 600 €

Ну Кортана, Алекса, ok Google в условиях шума тоже практически не работают.
То есть IMHO это задача не такая простая, чтобы можно было найти толковую инфу по решению. Скорее если вы такое напишете, вас с рукам оторвут крупнейшие конторы мира.

А так - пробуйте частотно отрезать шум и обрабатывать звук перед распознаванием.
Saboteur,
возможно не совсем корректно описал вопрос.
Как правильно создавать датасет? Записывать все голосовые команды в условиях студии звукозаписи или можно в условиях реальных окружающих шумов? Или записывать команды используя ту же обработку звукового сигнала, как и для распознавания: обрезка по частоте, АРУ, шумоподавление, эхоподавление.

Answer 1 · 2020-01-13 11:21:56

Проиллюстрирую проблему на распознавании образов.
Допустим, имеется нейросеть, которая распознаёт нарисованный крестик. Есть две палочки - нейрон срабатывает. Палочки пересекаются - ещё один нейрон срабатывает. Два нейрона сработали - появился "есть крестик" на выходе.
Теперь добавим шум - три палочки вместо двух. Как должна повести себя нейросеть в данном случае? Теоретически, если палочки пересекаются, то крестик как бы есть, но так мы получим ложное срабатывание, например, если на картинке не крестик, а буква Н.
В некоторых случаях, важно определить наличие крестика как абстракта, но что, если эта фигура задаёт пароль? Тогда ложное срабатывание недопустимо - система не должна открывать доступ и при крестике, и при Н.
Так же и в данном случае. Нужно отфильтровать шум по амплитуде, а затем уже распознавать команду. Если команда не распознана, потому что например двое в этот момент беседуют, то команда не распознана. Иначе будет ложное срабатывание, и система будет своим вниманием мешать разговаривать в её присутствии.
Можно сделать систему умнее - распознавать разные шумы. Допустим, подана команда, и при этом едет автомобиль - это один случай. Или подана команда, и при этом плачет ребёнок - это другой случай.
Такая система обещает работать гораздо лучше, но таких случаев может быть довольно много. Хватит ли возможностей микроконтроллера - вот вопрос.

Как правильно создать датасет голосовых команд?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт