Задать вопрос
@MIsternik

Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Есть определенные темы, которые классификатор обучен разделять, а есть темы о которых он ничего не знает. Если классификатору дать незнакомые ему темы, он найдет какой-то ответ, но будет не верным.

Предполагаю что можно строить общий вектор для каждой из известных тем и перед классификацией сравнивать вектор документа с векторами тем для поиска отклонения, где какое-то значение можно считать пороговым.

Но так как количество слов высоко и большие тексты могут содержать много разных слов, сомневаюсь в этом варианте.
Есть ли предложения лучше?
  • Вопрос задан
  • 399 просмотров
Подписаться 1 Оценить Комментировать
Ответ пользователя ⚡ Kotobotov ⚡ К ответам на вопрос (1)
angrySCV
@angrySCV
machine learning, programming, startuping
ну если хотите уберите не существенный текст -> соберите со всех документов общие наиболее употребимые слова, после чего предварительно удаляйте их из всех текстов, оставляя тем самым только наиболее специфичный текст.
Ответ написан
Комментировать