fastText... Facebook объявила об открытии исходных текстов библиотеки fastText, предоставляющей средства для классификации текста с использованием методов машинного обучения
(заметим: классификации, а не кластеризации)
Классификация - это кода классы заранее известны и к ним нужно отнести все классифицируемые элементы.
Каждый документ содержит взаимосвязанные по смыслу данные.
Под понятием "вектора" в машинном обучении прежде всего нужно понимать набор каких
признаков представляют те или иные данные.
Сперва нужно произвести нормализацию и фильтрацию данных. А текст - это сырые данные, негодные для машинного обучения, ибо машина - не человек, которые понимает значения слов (опять же, обычно не более 2-х разных языков).