Как исправить неправильное обновление весов в реализации back propagation?

Question

riZe_0 @riZe_0

Как исправить неправильное обновление весов в реализации back propagation?

Есть реализация логической операции XOR с помощью нейронной сети, обучение - back propagation, язык - python:

import numpy as np

class NeuralNetwork:
    
    def __init__(self, input_size, hidden_size, output_size):
        
        self.weights_input_hidden = np.random.rand(input_size + 1, hidden_size).T
        self.weights_hidden_output = np.random.rand(hidden_size + 1, output_size).T
        #print('Веса входного слоя (weights_input)=\n', self.weights_input_hidden) # w_jh
        #print('Веса выходного слоя (weights_hidden)=\n', self.weights_hidden_output, '\n') # w_hm

    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
    
    def sigmoid_derivative(self, x):
        return x * (1 - x)
    
    # Прямой ход
    def feedforward(self, X):
        self.hidden_layer_activation = np.dot(self.weights_input_hidden, X)
        self.hidden_layer_output = self.sigmoid(self.hidden_layer_activation) # u_h / sigma_h
        self.hidden_layer_output_bias = np.concatenate((self.hidden_layer_output, [-1]))
        
        self.output_layer_activation = np.dot(self.weights_hidden_output, self.hidden_layer_output_bias)
        output = self.sigmoid(self.output_layer_activation) # a_m / sigma_m
        
        return output
        
    # Обратный ход
    def back_prop(self, X, y, output, theta):
        output_error = output - y
        output_delta = output_error * self.sigmoid_derivative(output)
        
        hidden_error = output_delta.dot(self.weights_hidden_output)
        hidden_delta = hidden_error * self.sigmoid_derivative(self.hidden_layer_output_bias)
        
        self.weights_hidden_output -= theta * output_delta * self.hidden_layer_output_bias
        self.weights_input_hidden -= theta * hidden_delta * X
        
    def train(self, X, y, epochs, theta=0.01):
        X = np.concatenate((X, [-1]))
        for epoch in range(epochs):
            output = self.feedforward(X)
            self.back_prop(X, y, output, theta)
        
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])

y = np.array([[0], [1], [1], [0]]) 

xor = NeuralNetwork(2, 2, 1)

for i in range(len(y)):
    xor.train(X[i], y[i], 10000)

for x in X:
    x = np.concatenate((x, [-1]))
    print(f"{x} -> {xor.feedforward(x)}")

Проблема:
После обучения сети получается неправильный ответ (если значение xor.feedforward > 0.5, 1, 0). Пробовал вариант с добавлением смещения в виде отдельной переменной, пробовал даже без самого смещения - ответ неверный.
Подозреваю, что проблема в обновлении весов в функции back_prop, но где именно и почему я понять не в состоянии. Чувствую, что ответ лежит на поверхности.
Теорию брал из лекций К.В.Воронцова 2014 года на youtube.
Сам алгоритм из лекции:

Вопрос задан 26 окт. 2024
69 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 85 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 81 просмотр
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 159 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 282 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 226 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 172 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2024-10-30 09:40:15

Смог решить проблему. Ошибка оказалась в двух местах:

1. Неправильно обновлял входные веса:

self.weights_input_hidden -= theta * hidden_delta * X

В переменной hidden_delta хранился вектор, который получался при перемножении вектора ошибок с учетом bias на выходные значения скрытого слоя.
По идее получалось так, что когда я обновлял входные веса, я еще распространял ошибку смещения скрытого слоя, когда его учитывать не надо было.

2. После обучения нейронной сети:

for i in range(len(y)):
    xor.train(X[i], y[i], 10000)

Здесь я брал один объект и передавал в функцию train, где один объект проходил по циклу:

def train(self, X, y, epochs, theta=0.01):
        X = np.concatenate((X, [-1]))
        for epoch in range(epochs):
            output = self.feedforward(X)
            self.back_prop(X, y, output, theta)

Получилось так, что один объект мог обучаться 10 тысяч раз, и каждый раз веса всей сети менялись для одного объекта.

В итоге исправленный код будет выглядеть так:

import numpy as np

class NeuralNetwork:
    
    def __init__(self, input_size, hidden_size, output_size):
        
        self.weights_input_hidden = np.random.rand(input_size + 1, hidden_size).T
        self.weights_hidden_output = np.random.rand(hidden_size + 1, output_size).T

    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
    
    def sigmoid_derivative(self, x):
        return x * (1 - x)
    
    # Прямой ход
    def feedforward(self, X):
        self.hidden_layer_activation = np.dot(self.weights_input_hidden, X)
        self.hidden_layer_output = self.sigmoid(self.hidden_layer_activation)
        self.hidden_layer_output_bias = np.concatenate((self.hidden_layer_output, [-1])) # Добавил bias для скр.слоя
        
        self.output_layer_activation = np.dot(self.weights_hidden_output, self.hidden_layer_output_bias)
        output = self.sigmoid(self.output_layer_activation)
        
        return output
        
    # Обратынй ход
    def back_prop(self, X, y, output, theta):
        output_error = output - y
        output_delta = output_error * self.sigmoid_derivative(output)
        
        hidden_error = output_delta @ self.weights_hidden_output
        hidden_delta = hidden_error * self.sigmoid_derivative(self.hidden_layer_output_bias)

        self.weights_hidden_output -= (output_delta * self.hidden_layer_output_bias) * theta
        self.weights_input_hidden -= (X.reshape(3, 1) * hidden_delta[:-1]).T * theta
        
    def train(self, X, y, theta=0.1):
        output = self.feedforward(X)
        self.back_prop(X, y, output, theta)
                
        
X = np.array([[0, 0, -1],
              [0, 1, -1],
              [1, 0, -1],
              [1, 1, -1]])

y = np.array([[0], [1], [1], [0]]) 

xor = NeuralNetwork(2, 2, 1)
epochs = 10000

for epoch in range(epochs):
    for i in range(len(X)):
        xor.train(X[i], y[i])

for x in X:
    print(f"{x} -> {xor.feedforward(x)}")

Как исправить неправильное обновление весов в реализации back propagation?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт