Embedding Keras?

Question

nasdi @nasdi

Embedding Keras?

Пытаюсь соединить keras и word2vec. После get_keras_embedding не понимаю что подавать сети для обучения. Слова, векторы, токены слов, изначальные предложения не работают.

Error when checking model input: the list of Numpy arrays that you are passing to your model is not the size the model expected. Expected to see 1 array(s), but instead got the following list of 4457 arrays:

Не понимаю почему ожидается такая размерность массива.
Всего около 5500 предложений и vocab word2vec около 8000

text = []
for i in df['Message']:
    text.append(i.split())
model = Word2Vec(text, size=300, window=3, min_count=3, workers=16)
kmodel = Sequential()
kmodel.add(model.wv.get_keras_embedding(train_embeddings=False))
kmodel.add(Dropout(0.2))

kmodel.add(Conv1D(50,
                 3,
                 padding='valid',
                 activation='relu',
                 strides=1))
kmodel.add(GlobalMaxPooling1D())

kmodel.add(Dense(250))
kmodel.add(Dropout(0.2))
kmodel.add(Activation('relu'))

kmodel.add(Dense(1))
kmodel.add(Activation('sigmoid'))

kmodel.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
kmodel.fit(x_train, y_train,
          batch_size=32,
          epochs=5,
          validation_data=(x_test, y_test))

Вопрос задан более трёх лет назад
702 просмотра

Комментировать

Подписаться 2 Средний Комментировать

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
(telebot) bot send message ошибка NameError: name 'message' is not defined, что не так?
- 1 подписчик
- 7 часов назад
- 39 просмотров
1

ответ
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- вчера
- 130 просмотров
1

ответ
Python

+1 ещё

Простой
Как бороться с отступами в сформированном шаблоне Django python?
- 2 подписчика
- вчера
- 392 просмотра
1

ответ
Python

Простой
Как правильно спроектировать эту функцию?
- 1 подписчик
- 23 авг.
- 137 просмотров
2

ответа
Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 174 просмотра
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 113 просмотров
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 73 просмотра
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 251 просмотр
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 141 просмотр
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2019-10-20 02:46:13

Разобрался, оставляю решение.
1) Токен = количество слов, с запасом брать нельзя!!!

token = Tokenizer(7229)
token.fit_on_texts(df.Message)
text = token.texts_to_sequences(df.Message)

2) стандартно для кeras дополняем предложения 0
text = sequence.pad_sequences(text, maxlen=75)
3)создаем мешок слов по первоначальным предложениям и даем word2vec

mes = []
for i in df['Message']:
    mes.append(i.split())
model = Word2Vec(mes, size=300, window=3, min_count=1, workers=16)

4) В качестве подаваемых данных сети даем токенизированные предложения дополненные 0. Конвертим в np.array

x_train, x_test, y_train, y_test = train_test_split(text, y, test_size=0.2, stratify=y)

5)Создаем слой embedding из gensim при помощи wv.get_keras_embedding.

kmodel = Sequential()
kmodel.add(model.wv.get_keras_embedding(train_embeddings=True))
kmodel.add(Dropout(0.2))

kmodel.add(Conv1D(50,
                 3,
                 padding='valid',
                 activation='relu',
                 strides=1))
kmodel.add(GlobalMaxPooling1D())

kmodel.add(Dense(250))
kmodel.add(Dropout(0.2))
kmodel.add(Activation('relu'))

kmodel.add(Dense(1))
kmodel.add(Activation('sigmoid'))

kmodel.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
kmodel.fit(x_train, y_train,
          batch_size=32,
          epochs=5,
          validation_data=(x_test, y_test)

train_embeddings=True

Заметно увеличивает точность, как и время обучения.

Embedding Keras?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт