Привет.
Я делаю нейросеть по распознованию звуков.
Я подбираю оптимальное количество нейронов, и сейчас остановился на вот такой структуре:
72 -> 2000 -> 1000 -> 500 -> 200 -> 100 -> 2
72 -> это
chroma_stft фичи, достаю с помощю
librosa.
2 выходных, это 2 звука которые мне нужно различить.
Обучаю я так что режу звук на равные кусочки по 300 мл секунд, и эти кусочки подаю в нейросеть.
Допустим от звука в 1 секунду я получаю 3 кусочка, и этих 3 кусочка я три раза подаю в нейросеть, и просто если нейросеть выдала больше в пользу какого-то типа звуков, то это он.
Также хочу узнать какую функцию активации использовать, опять же, судя по экспериментам лучше всего работает
Tanh, а
sigmoid в этом случае очень плохо себя показывает.