На пальцах так.
Есть обучающая выборка — т.е. таблица с данными, допустим первые 10 столбцов это вход, оставшиеся 5 — это выход искомой нейросетевой модели. Берем случайно одну строку из таблицы. Назовем её отдельный экземпляр или образ данных. Подаем 10 элементов на вход, нейросеть при текущих значениях синапсов считает, что будет на выходе (5 значений).
Начинается один шаг back propagation. Сравнивается полученный выход нейросети с эталонным в обучающей таблице. Если реальный выход одного из пяти выходных элементов нейросети имеет ошибку, то синаптические коэффициенты этого выходного нейрона нужно чуть-чуть изменить так, чтобы эта ошибка чуть-чуть уменьшилась. И так для всех пяти выходов. Для многослойных сетей процесс каскадно повторяется, пока движение коррекций синапсов от выхода сети не доберется до её входа. Т.е. мы сделали сеть на этом шаге чуть-чуть точнее для этой одной конкретной строки из обучающей таблицы.
Процесс многократно повторяется на разных случайных строках таблицы (на каждом шаге ошибка каждого образа всякий раз становтся меньше), пока средняя ошибка по всей таблице не достигнет заранее заданной точности. В итоге полученная нейросеть может уверенно распознать все строки из обучающей таблицы (образы). При верном выборе архитектуры и скорости обучения нейросеть получит свое основное качество — умение обобщать знания, т.е. распознавать не только опорные образы из обучающей таблицы, но и некие промежуточные, ранее неизвестные образы.
В вычислительном процессе есть две опасности — паралич сети (выход синаптических коэффициентов на очень большие значения) и переобучение (потеря способности обобщению, т.е. сеть может верно распознать лишь образы из таблицы, но не промежуточные).
Это совсем на пальцах. Для полного понимания поста не хватит, надо матчасть учить: Круглов, Хайкин, Терехов, Галушкин в помощь. Особенно Хайкин.