Ребят,, кто-нибудь обучал word2vec в python по дампу векипедии? Сколько времени эно звняло. Я пытался, но что бы только создать корпус я прождал часов 9 так и не получилось
f = 'enwiki-latest-pages-articles.xml.bz2'
with open('wiki.en.text', 'w') as fout:
w = WikiCorpus(f, lemmatize=False, dictionary={})
for i, text in enumerate(w.get_texts()):
fout.write(' '.join(text) + '\n')
if i == 10000:
sys.exit()
Да, но как видите он находиться в xml , для обучения модели мне нужно что бы каждое предложение начинались с новой строчки. Но создания этого файла зпнимает очень много времени