Keras LSTM срыв градиента, как выйти из данной ситуации?

Question

Pantuchi @saneok44

Нейронные сети

Keras LSTM срыв градиента, как выйти из данной ситуации?

Всех приветствую кто решил заскочить!
Построил нейронную сеть по мануалам с сайтов все бы ничего но везде используется малый датасет и нейронка с функцией активации ReLU работает как надо по моим тестам все отрабатывает как надо с датасетом не более чем из 500 наблюдений. Но когда я ухожу к более масштабному датасету для тренировки loss уходит в NuN. Пробовал как пишут выставлять градиент отсечки clipvalue да помогло но в результате предсказание ряда никакое ... игрался с этим параметром но все безуспешно. Перебирал разные оптимизаторы, нормализовал данные толку 0. Датасет из 10 колонок по 4000 значений в каждой. Проверял на Null, нулов нет. Также тестил на рандомных значениях без каких либо считываний из вне. Уже не знаю что делать.
Менял функцию активации на tanh все вроде бы выглядит неплохо loss: за сотые уходит с каждой эпохой. И предсказанный временной ряд вроде бы с исходным похож. Именно вроде бы. Один раз подсунул после обучения тестовую выборку, за тестовой выборкой был небольшой скачек по данным так сеть повторила этот скачек причем почти 1 в 1. Закрадывается такое ощущение что она не предсказывает, а тупо повторяет... как то не правдоподобно выглядит.
3000 - весь датасет
2800 - тренинг
100 - входные
100 - предсказаны
Как все поделено

Предсказание последних 100 наблюдений

Такие пики в предсказание ряда не должны были попасть, но опять же повторюсь либо она повторила входные тестовые данные или я что то не понимаю. Но как мне кажется таких пиков не должно быть там.
Сроки жмут даже не знаю че еще сделать...

Откуда бралась инфа Multiple Parallel Input and Multi-Step Output
https://machinelearningmastery.com/how-to-develop-...

часть модели

self.model = Sequential()
        self.model.add(LSTM(300, activation='tanh', input_shape=(self.n_steps_in, self.n_features)))
        self.model.add(RepeatVector(self.n_steps_out))
        self.model.add(LSTM(200, activation='tanh', return_sequences=True))
        self.model.add(TimeDistributed(Dense(100, activation='tanh')))
        self.model.add(TimeDistributed(Dense(self.n_features)))
        self.model.compile(loss='mse', optimizer='adam')

Вопрос задан более трёх лет назад
65 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 79 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 79 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 148 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 261 просмотр
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 224 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 164 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

Answer 1 · 2021-08-11 20:27:13

Данные для тренировки перемешиваете?
Размер минибатча какой?
Уменьшить (увеличить) размер нейросети пробовали?

https://habr.com/ru/post/334944/ (37-й пункт, но прочитать и первые 36 тоже стоит)

(How to deal with NaNs https://web.archive.org/web/20180207100912/http://...)

Keras LSTM срыв градиента, как выйти из данной ситуации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт