nasdi

Question

Python
+1 ещё

Средний

Embedding Keras?

2 подписчика
более трёх лет назад
702 просмотра

1

ответ

Answer 1 · 2019-10-20 02:46:13

Разобрался, оставляю решение.
1) Токен = количество слов, с запасом брать нельзя!!!

token = Tokenizer(7229)
token.fit_on_texts(df.Message)
text = token.texts_to_sequences(df.Message)

2) стандартно для кeras дополняем предложения 0
text = sequence.pad_sequences(text, maxlen=75)
3)создаем мешок слов по первоначальным предложениям и даем word2vec

mes = []
for i in df['Message']:
    mes.append(i.split())
model = Word2Vec(mes, size=300, window=3, min_count=1, workers=16)

4) В качестве подаваемых данных сети даем токенизированные предложения дополненные 0. Конвертим в np.array

x_train, x_test, y_train, y_test = train_test_split(text, y, test_size=0.2, stratify=y)

5)Создаем слой embedding из gensim при помощи wv.get_keras_embedding.

kmodel = Sequential()
kmodel.add(model.wv.get_keras_embedding(train_embeddings=True))
kmodel.add(Dropout(0.2))

kmodel.add(Conv1D(50,
                 3,
                 padding='valid',
                 activation='relu',
                 strides=1))
kmodel.add(GlobalMaxPooling1D())

kmodel.add(Dense(250))
kmodel.add(Dropout(0.2))
kmodel.add(Activation('relu'))

kmodel.add(Dense(1))
kmodel.add(Activation('sigmoid'))

kmodel.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])
kmodel.fit(x_train, y_train,
          batch_size=32,
          epochs=5,
          validation_data=(x_test, y_test)

train_embeddings=True

Заметно увеличивает точность, как и время обучения.

nasdi

Наибольший вклад в теги

Python

Машинное обучение

Лучшие ответы пользователя

Embedding Keras?

Лучшие вопросы пользователя

Embedding Keras?

Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Оцените первый проект?

Embedding Keras?

Embedding Keras?

Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Оцените первый проект?

Войдите на сайт