Почему не сходится градиентный спуск?

Question

NikitaDen @NikitaDen

Машинное обучение

Почему не сходится градиентный спуск?

Добрый день! При реализации линейной регрессии возникла проблема: при градиентном спуске loss увеличивается причем на несколько порядков за раз. Loss - MSE, градиентный спуск - обычный. В качестве датасета выбрал California Housing dataset . При написании кода опирался на статью
Код класса

class LinearRegression():

  w = None
  alpha = None

  def __init__(self, lr, E=20):
    self.lr = lr
    self.w = np.zeros(X.shape[1] + 1)
    self.E = E

  def loss(self, X, y):
    return np.sum((y - X @ self.w) ** 2) / X.shape[0]

  def grad(self, X, y):
    print(self.w)
    grad_basic = np.transpose(X) @ (X @ self.w - y)    
    assert grad_basic.shape == (X.shape[1],) , "Градиенты должны быть столбцом из k_features + 1 элементов"
    return grad_basic / X.shape[0]

  def sgd(self, X, y, E=20):
    X = np.concatenate((np.ones((X.shape[0], 1)), X), axis = 1)
    print(X)
    self.loss_arr = [self.loss(X, y)]
    for _ in tqdm(range(E)):
      if abs(self.loss_arr[-1]) < 0.1:
        break
      self.w -= self.lr * self.grad(X, y)
      self.loss_arr.append(self.loss(X, y))

  def fit(self, X, y):
    self.sgd(X, y, self.E)

  def get_params(self):
    return self.w

  def get_loss(self):
    return self.loss_arr

  def predict(self, X):
    X = np.concatenate((np.ones((X.shape[0], 1)), X), axis = 1)
    return X.dot(self.w)

Вот так ведет себя loss:

5.610483198987253,
71185949512.90901,
1.9667789518677714e+21,
5.433978711941763e+31,
1.5013443485392878e+42...

Остальной код по загрузке датасета находится в ноутбуке
Подскажите, пожалуйста, где я совершил ошибку

Вопрос задан более трёх лет назад
150 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 200 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 54 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 271 просмотр
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 91 просмотр
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 106 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 742 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 171 просмотр
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 754 просмотра
2

ответа
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Часто ошибка бывает в том, что забывают то, что градиент имеет направление в сторону увеличения функции. А для поиска минимума нужно использовать градиент со знаком минус - антиградиент. Возможно что тут такая же ошибка.

Answer 1 · 2022-07-11 22:00:53

SeptiM @SeptiM

Попробуй градиент нормализовать.

Ответ написан более трёх лет назад

Комментировать

Почему не сходится градиентный спуск?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт