always-prog
@always-prog
Я программист. Python, JavaScript, Django.

Как обработать аудио перед подачей в нейросеть?

Я пишу нейросеть по распознаванию звуков (учусь).
Звуковые фрагменты в районе от 0,5 секунд до 3 секунд.
Как разделять звук я разобрался, просто делю фрагменты на ровные части (уже сделал), он у меня примерно 0,1 секунды длится.
Но вот как его достойно обработать перед тем как подать в нейросеть я не знаю. В сыром виде не получается, сколько бы не было нейронов ошибка слишком большая.

Вопрос в том, как сделать различимыми близкие звуки.
Что-то типа пропустить через формулу, и звук станет более четким/масштабным/изящным(?), подходящий для нейросети.

Ссылка на статью, формула в ответе - все подойдет.
  • Вопрос задан
  • 380 просмотров
Решения вопроса 1
Нужно уменьшить размерность данных путем кодирования входов, найдя качественные и количественные признаки во фреймах.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
gbg
@gbg
Любые ответы на любые вопросы
Перегоняете в частотную область (читать про FFT), режете полученный спектр на полоски, интенсивности в каждой полоске даете на вход сети.

Расширенный вариант - делать то же, но с вейвлетами.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы