Keras LSTM срыв градиента, как выйти из данной ситуации?

Question

Pantuchi @saneok44

Нейронные сети

Keras LSTM срыв градиента, как выйти из данной ситуации?

Всех приветствую кто решил заскочить!
Построил нейронную сеть по мануалам с сайтов все бы ничего но везде используется малый датасет и нейронка с функцией активации ReLU работает как надо по моим тестам все отрабатывает как надо с датасетом не более чем из 500 наблюдений. Но когда я ухожу к более масштабному датасету для тренировки loss уходит в NuN. Пробовал как пишут выставлять градиент отсечки clipvalue да помогло но в результате предсказание ряда никакое ... игрался с этим параметром но все безуспешно. Перебирал разные оптимизаторы, нормализовал данные толку 0. Датасет из 10 колонок по 4000 значений в каждой. Проверял на Null, нулов нет. Также тестил на рандомных значениях без каких либо считываний из вне. Уже не знаю что делать.
Менял функцию активации на tanh все вроде бы выглядит неплохо loss: за сотые уходит с каждой эпохой. И предсказанный временной ряд вроде бы с исходным похож. Именно вроде бы. Один раз подсунул после обучения тестовую выборку, за тестовой выборкой был небольшой скачек по данным так сеть повторила этот скачек причем почти 1 в 1. Закрадывается такое ощущение что она не предсказывает, а тупо повторяет... как то не правдоподобно выглядит.
3000 - весь датасет
2800 - тренинг
100 - входные
100 - предсказаны
Как все поделено

Предсказание последних 100 наблюдений

Такие пики в предсказание ряда не должны были попасть, но опять же повторюсь либо она повторила входные тестовые данные или я что то не понимаю. Но как мне кажется таких пиков не должно быть там.
Сроки жмут даже не знаю че еще сделать...

Откуда бралась инфа Multiple Parallel Input and Multi-Step Output
https://machinelearningmastery.com/how-to-develop-...

часть модели

self.model = Sequential()
        self.model.add(LSTM(300, activation='tanh', input_shape=(self.n_steps_in, self.n_features)))
        self.model.add(RepeatVector(self.n_steps_out))
        self.model.add(LSTM(200, activation='tanh', return_sequences=True))
        self.model.add(TimeDistributed(Dense(100, activation='tanh')))
        self.model.add(TimeDistributed(Dense(self.n_features)))
        self.model.compile(loss='mse', optimizer='adam')

Вопрос задан более двух лет назад
54 просмотра

Комментировать

Подписаться 2 Сложный Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Программное обеспечение и интернет-сервисы

+2 ещё

Простой
Существует ли сервис создания реалистичной модели человека?
- 1 подписчик
- 13 часов назад
- 34 просмотра
1

ответ
Нейронные сети

Простой
Многослойный перцептрон — как выполнить действия?
- 1 подписчик
- вчера
- 70 просмотров
2

ответа
Машинное обучение

+1 ещё

Простой
Как распараллелить gpt?
- 5 подписчиков
- 08 мая
- 1450 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Какие нейросети без цензуры?
- 5 подписчиков
- 08 мая
- 1981 просмотр
3

ответа
Нейронные сети

Средний
Как исправит ошибку при запуске koboldcpp.exe?
- 1 подписчик
- 08 мая
- 23 просмотра
1

ответ
Машинное обучение

+2 ещё

Простой
Существует ли нейросеть, которая по фотографии генерирует профессию человека?
- 2 подписчика
- 03 мая
- 86 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Как поместить большую модель на нескольких видеокартах?
- 1 подписчик
- 02 мая
- 74 просмотра
1

ответ
Нейронные сети

Простой
Имеет ли смысл менять batch_size при дообучении?
- 1 подписчик
- 02 мая
- 18 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Как обучать transformers модели на нескольких gpu?
- 2 подписчика
- 27 апр.
- 181 просмотр
0

ответов
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 26 апр.
- 292 просмотра
1

ответ
Показать ещё Загружается…

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Computer vision developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Разработчик мобильных приложений/Android Developer - webview

MST

от 1 000 $

Доработать парсер юзеров из Телеграм чатов/каналов

11 мая 2024, в 01:24

5000 руб./за проект

Доработать обмен заказами 1с

11 мая 2024, в 00:19

1000 руб./за проект

Разработка сайта (верстка)

10 мая 2024, в 23:51

30000 руб./за проект

Answer 1 · 2021-08-11 20:27:13

Данные для тренировки перемешиваете?
Размер минибатча какой?
Уменьшить (увеличить) размер нейросети пробовали?

https://habr.com/ru/post/334944/ (37-й пункт, но прочитать и первые 36 тоже стоит)

(How to deal with NaNs https://web.archive.org/web/20180207100912/http://...)

Keras LSTM срыв градиента, как выйти из данной ситуации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт