Я пишу нейросеть по распознаванию звуков (учусь).
Звуковые фрагменты в районе от 0,5 секунд до 3 секунд.
Как разделять звук я разобрался, просто делю фрагменты на ровные части (уже сделал), он у меня примерно 0,1 секунды длится.
Но вот как его достойно обработать перед тем как подать в нейросеть я не знаю. В сыром виде не получается, сколько бы не было нейронов ошибка слишком большая.
Вопрос в том, как сделать различимыми близкие звуки.
Что-то типа пропустить через формулу, и звук станет более четким/масштабным/изящным(?), подходящий для нейросети.
Ссылка на статью, формула в ответе - все подойдет.