Привет. Нужна помощь в моделью НН.
загрузил датасет:
content - тренировочные данные
sentiment - метки класса
df = pd.read_csv('datasets\\tweet_emotions.csv')
df['sentiment'].value_counts()
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 tweet_id 40000 non-null int64
1 sentiment 40000 non-null object
2 content 40000 non-null object
dtypes: int64(1), object(2)
memory usage: 937.6+ KB
убрал знаки пунктуации прочее с текста со столбца content. Также токенезировал текст и сделал вектора одинаковой длины через pad_sequences.
разбил данные на тренировочные и тестовые train_test_split
и построил модель
vec_size = 300
model = Sequential()
model.add(Embedding( vocab_size, vec_size, input_length=max_lenght ))
model.add(Dense(32, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
model.compile(loss = 'binary_crossentropy', metrics = ['accuracy'], optimizer = 'adam')
model.fit(x_train, y_train, epochs=10)