в общем случае у любой НС есть функция ошибок.
Ошибка -- это наблюдаемый ответ НС и нужный ответ в данной ситуации.
Т.о. глобально, обучение НС - это минимизация функции ошибки на пространстве состояний НС.
Вот это и есть реальное вознаграждение для НС.
Пространство состояний НС это набор всех весов всех синапсов которые есть у этой НС. Существует масса алгоритмов "обучения". Гуглите алгоритм обратного распространения ошибки