Прочёл статью где с помощью нейронной сети на javascript распознают рукописный текст. В статье распознают введенный от руки текст, взяли для примера только цифры(от 0 до 9). Появилось идея усложнить пример, научить сеть распознавать то же самое, но уже на слух
Сегодня. Столкнулся с первым камнем преткновения. Сеть нужно тренировать, кормить данными, но перед этим надо как то данные сделать однотипными. Если с изображением все ясно, делается попиксельное наложение и пропускается через всю сеть, то как быть со звуком?
Завтра. Звук не похож на изображение, поэтому как и чем аудио преобразовывать до отправки в сеть?
Со звуком обычно используют различные преобразования ( Фурье, Вейвлет) и пороговую фильтрацию для получения каких-то метрик. Я бы рекомендовал присмотреться ко второму (Вейвлет) варианту.