Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?
Есть определенные темы, которые классификатор обучен разделять, а есть темы о которых он ничего не знает. Если классификатору дать незнакомые ему темы, он найдет какой-то ответ, но будет не верным.
Предполагаю что можно строить общий вектор для каждой из известных тем и перед классификацией сравнивать вектор документа с векторами тем для поиска отклонения, где какое-то значение можно считать пороговым.
Но так как количество слов высоко и большие тексты могут содержать много разных слов, сомневаюсь в этом варианте.
Есть ли предложения лучше?
ну если хотите уберите не существенный текст -> соберите со всех документов общие наиболее употребимые слова, после чего предварительно удаляйте их из всех текстов, оставляя тем самым только наиболее специфичный текст.