Задать вопрос

newPsevdonim @newPsevdonim

Python разработчик

машинное-обучение

Машинное обучение

Как правильно векторизовать данные для обучения нейронной сети?

Я новичок в данной теме, в связи с этим у меня возник вопрос как правильно векторизовать столбец датасета, содержащий слова.(это не категориальный признак и метод one hot encoding не подойдет). Я верторизовал его используя мешок слов, но не уверен что я сделал это правильно и будет ли правильно обучаться при таких данных. Также есть столбцы с категориальными признаками, к ним я уже применил метод one hot encoding. Прошу указать на мои ошибки и подсказать, как их можно исправить.

Пример строк из столбца, который векторизовал с помощью мешка слов:
img price png
css font awesome min css

Код, который я использовал для этого:

my_df = pd.read_csv('DICT_FOR_LEARN.csv', header= 0, sep=';')
vectorizer = CountVectorizer()
X1 = vectorizer.fit_transform(my_df['url_path']).toarray()
X2= pd.get_dummies(my_df['country'], sparse=True)
X3 = pd.get_dummies(my_df['continent'], sparse=True)
X4 = pd.get_dummies(my_df['timezone'], sparse=True)
X5 = pd.get_dummies(my_df['method'], sparse=True)
X6 = pd.get_dummies(my_df['http'], sparse=True)
X7 = pd.get_dummies(my_df['exit_system'], sparse=True)
X8 = pd.get_dummies(my_df['os'], sparse=True)
X9 = pd.get_dummies(my_df['browser'], sparse=True)
X10 = pd.get_dummies(my_df['device'], sparse=True)

x_train = X1, X2, X3, X4, X5, X6, X7, X8, X9, X10

Вопрос задан более трёх лет назад
54 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер машинного обучения с нуля

14 месяцев

Далее
Яндекс Практикум

ML-инженер для начинающих

12 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

Простой
Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?
- 2 подписчика
- 22 янв.
- 134 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 116 просмотров
0

ответов
Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 116 просмотров
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек. 2025
- 310 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент. 2025
- 180 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент. 2025
- 201 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент. 2025
- 198 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент. 2025
- 64 просмотра
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг. 2025
- 403 просмотра
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг. 2025
- 534 просмотра
1

ответ
Показать ещё Загружается…

Менеджер по продажам (со знанием английского языка)

Ingros Sales • Санкт-Петербург

от 1 500 $

Разработчик Ruby

ПСБ цифровая лаборатория • Москва

от 200 000 ₽

Web-аналитик / Веб-аналитик

ElsiKora

от 120 000 до 250 000 ₽