Как научить нейронную сеть распознавать речь?

Question

krll-k @krll-k

Как научить нейронную сеть распознавать речь?

Прочёл статью где с помощью нейронной сети на javascript распознают рукописный текст. В статье распознают введенный от руки текст, взяли для примера только цифры(от 0 до 9). Появилось идея усложнить пример, научить сеть распознавать то же самое, но уже на слух

Сегодня. Столкнулся с первым камнем преткновения. Сеть нужно тренировать, кормить данными, но перед этим надо как то данные сделать однотипными. Если с изображением все ясно, делается попиксельное наложение и пропускается через всю сеть, то как быть со звуком?

Завтра. Звук не похож на изображение, поэтому как и чем аудио преобразовывать до отправки в сеть?

Вопрос задан более трёх лет назад
646 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 21 час назад
- 45 просмотров
0

ответов
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 54 просмотра
1

ответ
JavaScript

Простой
Как прочитать ответ сервера после отправки формы?
- 1 подписчик
- 27 сент.
- 177 просмотров
1

ответ
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 4 подписчика
- 22 сент.
- 961 просмотр
6

ответов
JavaScript

+2 ещё

Простой
Как менять картинки у карточки в списке товаров?
- 3 подписчика
- 22 сент.
- 207 просмотров
1

ответ
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 195 просмотров
3

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 246 просмотров
3

ответа
Нейронные сети

Простой
Как настроить оркестрацию вайбкодинга?
- 2 подписчика
- 21 сент.
- 385 просмотров
3

ответа
JavaScript

Простой
Где найти исходники стандартной библиотеки JavaScript?
- 1 подписчик
- 21 сент.
- 251 просмотр
2

ответа
JavaScript

+2 ещё

Простой
Где найти такой слайдер?
- 1 подписчик
- 20 сент.
- 183 просмотра
1

ответ
Показать ещё Загружается…

Senior Automation QA Engineer

OfferCase • Москва

от 400 000 ₽

Senior frontend developer

DigitalHR • Ереван

До 4 000 $

Senior WEB Developer

OfferCase • Москва

от 300 000 ₽

Answer 1 · 2016-11-07 10:45:10

Со звуком обычно используют различные преобразования ( Фурье, Вейвлет) и пороговую фильтрацию для получения каких-то метрик. Я бы рекомендовал присмотреться ко второму (Вейвлет) варианту.

Как научить нейронную сеть распознавать речь?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт