Как обработать аудио перед подачей в нейросеть?

Question

Stepan Sidorov @always-prog

Я программист. Python, JavaScript, Django.

Как обработать аудио перед подачей в нейросеть?

Я пишу нейросеть по распознаванию звуков (учусь).
Звуковые фрагменты в районе от 0,5 секунд до 3 секунд.
Как разделять звук я разобрался, просто делю фрагменты на ровные части (уже сделал), он у меня примерно 0,1 секунды длится.
Но вот как его достойно обработать перед тем как подать в нейросеть я не знаю. В сыром виде не получается, сколько бы не было нейронов ошибка слишком большая.

Вопрос в том, как сделать различимыми близкие звуки.
Что-то типа пропустить через формулу, и звук станет более четким/масштабным/изящным(?), подходящий для нейросети.

Ссылка на статью, формула в ответе - все подойдет.

Вопрос задан более трёх лет назад
441 просмотр

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
Бруноям

ИИ-агенты и n8n

2 месяца

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как решить проблему с генерацией видео в Kling AI?
- 1 подписчик
- 09 июл.
- 75 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 146 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 304 просмотра
2

ответа
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 73 просмотра
1

ответ
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 290 просмотров
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 407 просмотров
5

ответов
Обработка звука

Простой
Кто нибудь получал ELASTIQUE PRO SDK от zplane.technology?
- 1 подписчик
- 27 апр.
- 78 просмотров
1

ответ
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 247 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 198 просмотров
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1292 просмотра
9

ответов
Показать ещё Загружается…

Answer 1 · 2020-09-27 17:27:32

Нужно уменьшить размерность данных путем кодирования входов, найдя качественные и количественные признаки во фреймах.

Answer 2 · 2020-09-27 17:33:20

Перегоняете в частотную область (читать про FFT), режете полученный спектр на полоски, интенсивности в каждой полоске даете на вход сети.

Расширенный вариант - делать то же, но с вейвлетами.

Как обработать аудио перед подачей в нейросеть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт