Как правильно создать датасет голосовых команд?

Question

Art_Sh82 @Art_Sh82

Как правильно создать датасет голосовых команд?

Всем привет.
Делаю систему распознавания голосовых команд на базе нейросети Tensor flow lite. Работает она на МК с ядром Cortex m4
Интересует правильный алгоритм подготовки датасета образцов произношения голосовых команд и последующего обучения. На данный момент поступал так: собирал (записывал) образцы произношения команд, приводил все файлы к одному виду и затем этим датасетом обучал сетку. Записи делались в условиях тишины. Система заработала, команды распознаются, но только в условиях тишины. Как сделать систему более толерантную к окружающему шуму?
Какой вообще правильный алгоритм создания датасета и обучения сетки? Читал, что как то подмешивают шум - добавляют файлы с записями шумов в датасет, но толковой инфы не нашел. Заранее спасибо за ответы.

Вопрос задан более трёх лет назад
250 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Saboteur @saboteur_kiev

Ну Кортана, Алекса, ok Google в условиях шума тоже практически не работают.
То есть IMHO это задача не такая простая, чтобы можно было найти толковую инфу по решению. Скорее если вы такое напишете, вас с рукам оторвут крупнейшие конторы мира.

А так - пробуйте частотно отрезать шум и обрабатывать звук перед распознаванием.

Написано более трёх лет назад
Art_Sh82 @Art_Sh82 Автор вопроса

Saboteur,
возможно не совсем корректно описал вопрос.
Как правильно создавать датасет? Записывать все голосовые команды в условиях студии звукозаписи или можно в условиях реальных окружающих шумов? Или записывать команды используя ту же обработку звукового сигнала, как и для распознавания: обрезка по частоте, АРУ, шумоподавление, эхоподавление.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Центр непрерывного образования ФКН НИУ ВШЭ

Глубинное обучение

10 недель

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 114 просмотров
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 92 просмотра
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 85 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 67 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Есть ли js-библиотека для офлайн-распознавания русской речи?
- 1 подписчик
- 12 окт.
- 188 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 97 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 82 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 160 просмотров
0

ответов
Микроконтроллеры

+3 ещё

Средний
Как открыть таблицу регистров периферии в gdb (openocd)?
- 3 подписчика
- 24 сент.
- 109 просмотров
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1368 просмотров
5

ответов
Показать ещё Загружается…

Frontend Developer/ Vue.js

DevTeam.Space • Москва

от 1 000 до 3 000 $

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Ну Кортана, Алекса, ok Google в условиях шума тоже практически не работают.
То есть IMHO это задача не такая простая, чтобы можно было найти толковую инфу по решению. Скорее если вы такое напишете, вас с рукам оторвут крупнейшие конторы мира.

А так - пробуйте частотно отрезать шум и обрабатывать звук перед распознаванием.
Saboteur,
возможно не совсем корректно описал вопрос.
Как правильно создавать датасет? Записывать все голосовые команды в условиях студии звукозаписи или можно в условиях реальных окружающих шумов? Или записывать команды используя ту же обработку звукового сигнала, как и для распознавания: обрезка по частоте, АРУ, шумоподавление, эхоподавление.

Answer 1 · 2020-01-13 11:21:56

Проиллюстрирую проблему на распознавании образов.
Допустим, имеется нейросеть, которая распознаёт нарисованный крестик. Есть две палочки - нейрон срабатывает. Палочки пересекаются - ещё один нейрон срабатывает. Два нейрона сработали - появился "есть крестик" на выходе.
Теперь добавим шум - три палочки вместо двух. Как должна повести себя нейросеть в данном случае? Теоретически, если палочки пересекаются, то крестик как бы есть, но так мы получим ложное срабатывание, например, если на картинке не крестик, а буква Н.
В некоторых случаях, важно определить наличие крестика как абстракта, но что, если эта фигура задаёт пароль? Тогда ложное срабатывание недопустимо - система не должна открывать доступ и при крестике, и при Н.
Так же и в данном случае. Нужно отфильтровать шум по амплитуде, а затем уже распознавать команду. Если команда не распознана, потому что например двое в этот момент беседуют, то команда не распознана. Иначе будет ложное срабатывание, и система будет своим вниманием мешать разговаривать в её присутствии.
Можно сделать систему умнее - распознавать разные шумы. Допустим, подана команда, и при этом едет автомобиль - это один случай. Или подана команда, и при этом плачет ребёнок - это другой случай.
Такая система обещает работать гораздо лучше, но таких случаев может быть довольно много. Хватит ли возможностей микроконтроллера - вот вопрос.

Как правильно создать датасет голосовых команд?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт