Для просто представим задачу в матричной форме.
Даны матрицы X,Y.
Существует некоторая функция F с матрицей параметров W, которая преобразует X->Y.
В простейшем случае функция F(X,W)=X*W=Y.
Было бы круто из матрицы весов W получить вектор весов w, что бы иметь возможность преобразовать произвольный вектор x->y для одного датасета.
Остаётся вопрос преобразования W->w. Этим как раз и занимается функция обучения H(W)=w.
Обычно она индуктивна: на нулевом шаге выбирается исходный вектор весов w, затем каждую итерацию к нему прибавляется -k*L(w*x;y), где k - коэффициент скорости обучения, L(a,b) - функция потерь между a и b.
Получаем H(W)={H[0]=w[0];H[i]=w[i-1]-k*L(w[i-1]*x[i];y[i])}.
Ваша задача преобразовать функцию H(W), чтобы сходимость была максимальной (чтобы это не значило). Думаю, речь идёт о скорости сходимости, количестве итераций (шагов) обучения или алгоритмической операционной сложности.