@numitus2

Чем отличется обратное распространение ошибки от стохастического градиентного спуска?

Насколько я понял из литературы, они отличаются только тем, что обратное распространение ошибки меняется после обработки всей выборки, а стохастический спуск после каждого образа?
  • Вопрос задан
  • 537 просмотров
Пригласить эксперта
Ответы на вопрос 1
@ivodopyanov
NLP, python, numpy, tensorflow
На самом деле, это немного разные понятия.

Backpropagation дает нам функцию, которую надо оптимизировать ( = найти минимум\максимум).

SGD находит минимум\максимум некоторой произвольной функции.

Кроме стохастического спуска, есть еще full-batch gradient descent (это тот самый, по умолчанию, когда изменяем коэффициенты после обсчета всей выборки), mini-batch gradient descent (промежуточный вариант, когда меняем коэффициенты после обсчета N элементов выборки), rmsprop, ADAM, имитация отжига и т.д.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы