Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Question

nasdi @nasdi

Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Собрал датасет из 1.3 млн документов. Прогнал через алгоритм word2vec. При помощи MST хочу получить кластеры тем этих документов.

import pandas as pd
import gensim.models.word2vec as w2v
import networkx as nx
import matplotlib.pyplot as plt

df = pd.read_excel('history_of_groups_by_user.xlsx', header=None, encoding='windows-1251')
df = df.dropna(subset=[0])
df = pd.DataFrame([item for item in df[0].values if not isinstance(item, int)])

text = []
for i in df[0]:
    text.append(i.lower().split())

model = w2v.Word2Vec(
    sentences=text,
    seed=42,
    size=50,
    min_count=5,
    window=4,
    sample=1e-3)

Вопрос задан более трёх лет назад
195 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

nasdi @nasdi Автор вопроса
Попробовал запустить на довольно маленьком наборе данных(53 мб). После примерно 8 часов работы
так и не выполнил эту срочку
df['vector'] = df['text'].apply(lambda t: build_matrix(t))

Хотя функция работает
Написано более трёх лет назад
Данил @DanilBaibak

Немного был занят, а тут попалась статья и напомнила о вопросе - Using word2vec to Analyze News Headlines and Predi.... В статье есть функция - document_vector , которая реализовывает похожий функционал.

Там есть ссылка на код, надеюсь будет полезно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 95 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 411 просмотров
2

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 207 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 536 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 490 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 279 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 504 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 213 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-07-22 12:15:53

Если в общем - Word2Vec перевидет каждое слово в вектор, в Вашем случае, размерности 50. Дальше, Вам надо построить вектор всего документа, например, взяв среднее всех слов (векторов).

Псевдокод:

embedding_matrix = []

def build_matrix(text):
    for token in text:
         embedding_matrix.append(model.wv[token] )

    return np.mean(embedding_matrix, axis=0)

df['vector'] = df['text'].apply(lambda t: build_matrix(t))

В итоге, у Вас каждый документ представлен вектором размерностью 50, который можно подать на вход любому алгоритму.

Не понимаю как связать word2vec с Алгоритмом минимального покрывающего дерева (MST)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт