@krll-k

Как научить нейронную сеть распознавать речь?

Прочёл статью где с помощью нейронной сети на javascript распознают рукописный текст. В статье распознают введенный от руки текст, взяли для примера только цифры(от 0 до 9). Появилось идея усложнить пример, научить сеть распознавать то же самое, но уже на слух

Сегодня. Столкнулся с первым камнем преткновения. Сеть нужно тренировать, кормить данными, но перед этим надо как то данные сделать однотипными. Если с изображением все ясно, делается попиксельное наложение и пропускается через всю сеть, то как быть со звуком?

Завтра. Звук не похож на изображение, поэтому как и чем аудио преобразовывать до отправки в сеть?
  • Вопрос задан
  • 646 просмотров
Пригласить эксперта
Ответы на вопрос 1
Со звуком обычно используют различные преобразования ( Фурье, Вейвлет) и пороговую фильтрацию для получения каких-то метрик. Я бы рекомендовал присмотреться ко второму (Вейвлет) варианту.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы