Обратное распространение ошибки. Почему такая разница в знаках формулы при одинаковом подходе?
Всех приветствую.
При изучении нейронных сетей и штурмование формул на разных источниках появился неоднозначный вопрос при методе обратного распространения ошибки. Например:
d - желаемый результат y - ответ сети w - вес g - градиент v - значение сигмоиды
где то пишут что (1)[e = d - y], а где то (2)[y - d].
В корректировке весов (1)[w = w - скорость обучения * g * v] , а
где то (2)[w = w + скорость обучения * g * v]; Пока только нашел закономерность знака в корректировке весов с порядком переменных в нахождении ошибки.
Потому, что это не строгая формула, аля "как найти вычитаемое". Тут важно только в какую сторону надо "подтолкнуть" сеть. А вот уже на сколько решает каждый сам в его конкретном случае. И это вы ещё не используете регуляцию первого и второго уровня.