Почему количество параметров для LSTM блока получились разные в keras и pytorch имплементациях?

Question

Merci @Serci

ML

Почему количество параметров для LSTM блока получились разные в keras и pytorch имплементациях?

Я переписываю модель нейронной сети с keras на pytorch
Все было хорошо, пока я не добрался до блоков LSTM. Заранее извиняюсь, если я что-то упустил и вопрос оказался глупым. И ещё, Sequential модель - для примера (такой вариант для pytorch не будет работать, но это не важно). Когда я попытался переписать сетку в pytorch, я заметил:
- Количество параметров не совпадает
- выходные значения keras и pytorch LSTM отличаются

Я не могу понять, как последний слой LSTM в keras выдает форму [batch_size, 128], потому что до этого на входе была последовательность длиной 256 с 7 признаками. PyTorch LSTM возвращает output, (hidden_state, cell_state), где output — это результат вычисления последнего слоя для каждого временного шага (каждое векторное представление слова в предложении). Я считаю, что для задачи классификации мне нужен не каждый временной шаг, а только результат вычислений с последнего временного шага. Правда ли, что когда аргумент return_sequences=True в keras LSTM, то нам возвращается результат для последнего временного шага (hidden_state)? Тогда это объясняет выходную ворму batch_size, 128, где batch_size - размер пакета, а 128 - количество признаков на выходе LSTM блока.

Keras

lstm_keras = Sequential()
    lstm_keras.add(Conv1D(2048, kernel_size=5, strides=1, padding='same', activation='relu', input_shape=(52, 1)))
    lstm_keras.add(MaxPooling1D(pool_size=2, strides = 2, padding = 'same'))
    lstm_keras.add(BatchNormalization())`
    
    lstm_keras.add(Conv1D(1024, kernel_size=5, strides=1, padding='same', activation='relu', input_shape=(52, 1)))
    lstm_keras.add(MaxPooling1D(pool_size=2, strides = 2, padding = 'same'))
    lstm_keras.add(BatchNormalization())`
    
    lstm_keras.add(Conv1D(512, kernel_size=5, strides=1, padding='same', activation='relu'))
    lstm_keras.add(MaxPooling1D(pool_size=2, strides = 2, padding = 'same'))
    lstm_keras.add(BatchNormalization())`
    
    lstm_keras.add(LSTM(256, return_sequences=True)) 
    lstm_keras.add(LSTM(128))`
    
    
    lstm_keras.add(Dense(64, activation='relu'))
    lstm_keras.add(Dropout(0.5))
    
    lstm_keras.add(Dense(32, activation='relu'))
    lstm_keras.add(Dropout(0.5))`
    
    lstm_keras.add(Dense(3, activation='softmax'))
    
    lstm_keras.summary()`

Pytorch

lstm_torch = nn.Sequential(
                nn.Conv1d(in_channels=1, out_channels=2048, stride=1, kernel_size=5, padding=2),
                nn.ReLU(),
                nn.MaxPool1d(kernel_size=2, stride=2),
                nn.BatchNorm1d(26),
        
                nn.Conv1d(in_channels=2048, out_channels=1024, stride=1, kernel_size=5, padding=2),
                nn.ReLU(),
                nn.MaxPool1d(kernel_size=2, stride=2),
                nn.BatchNorm1d(13),
        
                nn.Conv1d(in_channels=1024, out_channels=512, stride=1, kernel_size=5, padding=2),
                nn.ReLU(),
                nn.MaxPool1d(kernel_size=2, stride=2, padding=1),
                nn.BatchNorm1d(7),
        
                nn.LSTM(input_size=7, hidden_size=256),
                nn.LSTM(input_size=256,hidden_size=128),
                
                nn.Linear(128, 64),
                nn.ReLU(),
                nn.Dropout(0.5),
                nn.Linear(64, 32),
                nn.ReLU(),
                nn.Dropout(0.5),
                nn.Linear(32, 3),
                nn.Softmax()
    )

Но это не объясняет, почему в моей сети в слоях pytorch LSTM гораздо меньше параметров, чем при записи в keras:

Вопрос задан более двух лет назад
175 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 23 часа назад
- 88 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- вчера
- 99 просмотров
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- вчера
- 151 просмотр
0

ответов
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- вчера
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- 15 авг.
- 40 просмотров
1

ответ
Python

+1 ещё

Простой
Как настроить группы при создании нового пользователя в битриксе?
- 1 подписчик
- 14 авг.
- 112 просмотров
0

ответов
Python

+1 ещё

Простой
При добавления строчки @commands.has_permissions в терминале при запуске выдает ошибку?
- 1 подписчик
- 14 авг.
- 89 просмотров
0

ответов
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 128 просмотров
0

ответов
Python

Простой
Не работает код, что делать?
- 2 подписчика
- 10 авг.
- 2128 просмотров
4

ответа
Python

Простой
Почему консольная программа перестает работать спустя время?
- 3 подписчика
- 08 авг.
- 2298 просмотров
3

ответа
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Правда ли, что когда аргумент return_sequences=True в keras LSTM, то нам возвращается результат для последнего временного шага (hidden_state)?
Нет, последнее состояние это когда False (что по умолчанию). Когда True то вся последовательность.
Максим Припадчев, Ой, я опечатался. Да, тогда это объясняет выходные размеры

Почему количество параметров для LSTM блока получились разные в keras и pytorch имплементациях?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт