Да, классическое обучение с обратным распространением ошибки.
Попробуй разобраться с алгоритмом word2vec, принцип там несколько похожий, обучаются сразу две матрицы, причём вторую потом выкидывают :)
Какие матрицы обучаются? Их размер ,что содержится в них ? Какую выкидывают? Я знаю что там матрицы запроса,ключа,значения . Обучение с учителем? Данные размечены?