Имеется нейронная сеть обратного распространения с функцией градиентного спуска, вопрос в какой момент делается регуляризация? Я понимаю что регуляризация применяется на этапе вычисления обратной ошибки, но куда??когда мы корректируем веса?
Xvir43, Вы же градиент накапливаете, а не после каждого BP делаете обновление весов. Ну вот это как раз то количество - мини подвыборка, на скольки элементах вы обучились, прежде чем обновить веса..
freeExec, Вы меня извините за столько вопросов, подскажите как вы используете нормализацию точнее когда и в каком месте(например на входной слой и все скрытые слои или как то еще, перед функцией активации или после нее )? моя сеть состоит из из 2ух скрытых слоев (прямого распространения).