@newPsevdonim
Python разработчик

Как правильно векторизовать данные для обучения нейронной сети?

Я новичок в данной теме, в связи с этим у меня возник вопрос как правильно векторизовать столбец датасета, содержащий слова.(это не категориальный признак и метод one hot encoding не подойдет). Я верторизовал его используя мешок слов, но не уверен что я сделал это правильно и будет ли правильно обучаться при таких данных. Также есть столбцы с категориальными признаками, к ним я уже применил метод one hot encoding. Прошу указать на мои ошибки и подсказать, как их можно исправить.

Пример строк из столбца, который векторизовал с помощью мешка слов:
img price png
css font awesome min css


Код, который я использовал для этого:
my_df = pd.read_csv('DICT_FOR_LEARN.csv', header= 0, sep=';')
vectorizer = CountVectorizer()
X1 = vectorizer.fit_transform(my_df['url_path']).toarray()
X2= pd.get_dummies(my_df['country'], sparse=True)
X3 = pd.get_dummies(my_df['continent'], sparse=True)
X4 = pd.get_dummies(my_df['timezone'], sparse=True)
X5 = pd.get_dummies(my_df['method'], sparse=True)
X6 = pd.get_dummies(my_df['http'], sparse=True)
X7 = pd.get_dummies(my_df['exit_system'], sparse=True)
X8 = pd.get_dummies(my_df['os'], sparse=True)
X9 = pd.get_dummies(my_df['browser'], sparse=True)
X10 = pd.get_dummies(my_df['device'], sparse=True)

x_train = X1, X2, X3, X4, X5, X6, X7, X8, X9, X10
  • Вопрос задан
  • 48 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы