Как исправить неправильное обновление весов в реализации back propagation?

Question

riZe_0 @riZe_0

Как исправить неправильное обновление весов в реализации back propagation?

Есть реализация логической операции XOR с помощью нейронной сети, обучение - back propagation, язык - python:

import numpy as np

class NeuralNetwork:
    
    def __init__(self, input_size, hidden_size, output_size):
        
        self.weights_input_hidden = np.random.rand(input_size + 1, hidden_size).T
        self.weights_hidden_output = np.random.rand(hidden_size + 1, output_size).T
        #print('Веса входного слоя (weights_input)=\n', self.weights_input_hidden) # w_jh
        #print('Веса выходного слоя (weights_hidden)=\n', self.weights_hidden_output, '\n') # w_hm

    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
    
    def sigmoid_derivative(self, x):
        return x * (1 - x)
    
    # Прямой ход
    def feedforward(self, X):
        self.hidden_layer_activation = np.dot(self.weights_input_hidden, X)
        self.hidden_layer_output = self.sigmoid(self.hidden_layer_activation) # u_h / sigma_h
        self.hidden_layer_output_bias = np.concatenate((self.hidden_layer_output, [-1]))
        
        self.output_layer_activation = np.dot(self.weights_hidden_output, self.hidden_layer_output_bias)
        output = self.sigmoid(self.output_layer_activation) # a_m / sigma_m
        
        return output
        
    # Обратный ход
    def back_prop(self, X, y, output, theta):
        output_error = output - y
        output_delta = output_error * self.sigmoid_derivative(output)
        
        hidden_error = output_delta.dot(self.weights_hidden_output)
        hidden_delta = hidden_error * self.sigmoid_derivative(self.hidden_layer_output_bias)
        
        self.weights_hidden_output -= theta * output_delta * self.hidden_layer_output_bias
        self.weights_input_hidden -= theta * hidden_delta * X
        
    def train(self, X, y, epochs, theta=0.01):
        X = np.concatenate((X, [-1]))
        for epoch in range(epochs):
            output = self.feedforward(X)
            self.back_prop(X, y, output, theta)
        
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])

y = np.array([[0], [1], [1], [0]]) 

xor = NeuralNetwork(2, 2, 1)

for i in range(len(y)):
    xor.train(X[i], y[i], 10000)

for x in X:
    x = np.concatenate((x, [-1]))
    print(f"{x} -> {xor.feedforward(x)}")

Проблема:
После обучения сети получается неправильный ответ (если значение xor.feedforward > 0.5, 1, 0). Пробовал вариант с добавлением смещения в виде отдельной переменной, пробовал даже без самого смещения - ответ неверный.
Подозреваю, что проблема в обновлении весов в функции back_prop, но где именно и почему я понять не в состоянии. Чувствую, что ответ лежит на поверхности.
Теорию брал из лекций К.В.Воронцова 2014 года на youtube.
Сам алгоритм из лекции:

Вопрос задан более года назад
70 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Центр непрерывного образования ФКН НИУ ВШЭ

Глубинное обучение

10 недель

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 113 просмотров
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 92 просмотра
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 85 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 67 просмотров
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 97 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 82 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 158 просмотров
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1354 просмотра
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 249 просмотров
3

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 278 просмотров
3

ответа
Показать ещё Загружается…

Стажёр риск-аналитик

ПСБ цифровая лаборатория • Москва

До 52 200 ₽

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Менеджер по продажам

KRAFFIK • Самара

от 50 000 ₽

Answer 1 · 2024-10-30 09:40:15

Смог решить проблему. Ошибка оказалась в двух местах:

1. Неправильно обновлял входные веса:

self.weights_input_hidden -= theta * hidden_delta * X

В переменной hidden_delta хранился вектор, который получался при перемножении вектора ошибок с учетом bias на выходные значения скрытого слоя.
По идее получалось так, что когда я обновлял входные веса, я еще распространял ошибку смещения скрытого слоя, когда его учитывать не надо было.

2. После обучения нейронной сети:

for i in range(len(y)):
    xor.train(X[i], y[i], 10000)

Здесь я брал один объект и передавал в функцию train, где один объект проходил по циклу:

def train(self, X, y, epochs, theta=0.01):
        X = np.concatenate((X, [-1]))
        for epoch in range(epochs):
            output = self.feedforward(X)
            self.back_prop(X, y, output, theta)

Получилось так, что один объект мог обучаться 10 тысяч раз, и каждый раз веса всей сети менялись для одного объекта.

В итоге исправленный код будет выглядеть так:

import numpy as np

class NeuralNetwork:
    
    def __init__(self, input_size, hidden_size, output_size):
        
        self.weights_input_hidden = np.random.rand(input_size + 1, hidden_size).T
        self.weights_hidden_output = np.random.rand(hidden_size + 1, output_size).T

    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
    
    def sigmoid_derivative(self, x):
        return x * (1 - x)
    
    # Прямой ход
    def feedforward(self, X):
        self.hidden_layer_activation = np.dot(self.weights_input_hidden, X)
        self.hidden_layer_output = self.sigmoid(self.hidden_layer_activation)
        self.hidden_layer_output_bias = np.concatenate((self.hidden_layer_output, [-1])) # Добавил bias для скр.слоя
        
        self.output_layer_activation = np.dot(self.weights_hidden_output, self.hidden_layer_output_bias)
        output = self.sigmoid(self.output_layer_activation)
        
        return output
        
    # Обратынй ход
    def back_prop(self, X, y, output, theta):
        output_error = output - y
        output_delta = output_error * self.sigmoid_derivative(output)
        
        hidden_error = output_delta @ self.weights_hidden_output
        hidden_delta = hidden_error * self.sigmoid_derivative(self.hidden_layer_output_bias)

        self.weights_hidden_output -= (output_delta * self.hidden_layer_output_bias) * theta
        self.weights_input_hidden -= (X.reshape(3, 1) * hidden_delta[:-1]).T * theta
        
    def train(self, X, y, theta=0.1):
        output = self.feedforward(X)
        self.back_prop(X, y, output, theta)
                
        
X = np.array([[0, 0, -1],
              [0, 1, -1],
              [1, 0, -1],
              [1, 1, -1]])

y = np.array([[0], [1], [1], [0]]) 

xor = NeuralNetwork(2, 2, 1)
epochs = 10000

for epoch in range(epochs):
    for i in range(len(X)):
        xor.train(X[i], y[i])

for x in X:
    print(f"{x} -> {xor.feedforward(x)}")

Как исправить неправильное обновление весов в реализации back propagation?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт