Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Question

MIsternik @MIsternik

Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Есть определенные темы, которые классификатор обучен разделять, а есть темы о которых он ничего не знает. Если классификатору дать незнакомые ему темы, он найдет какой-то ответ, но будет не верным.

Предполагаю что можно строить общий вектор для каждой из известных тем и перед классификацией сравнивать вектор документа с векторами тем для поиска отклонения, где какое-то значение можно считать пороговым.

Но так как количество слов высоко и большие тексты могут содержать много разных слов, сомневаюсь в этом варианте.
Есть ли предложения лучше?

Вопрос задан более трёх лет назад
400 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 263 просмотра
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 174 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 200 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 167 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 323 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 170 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 164 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 193 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 188 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Инженер по автоматизации

Алабуга • Екатеринбург

от 127 500 ₽

Answer 1 · 2015-08-08 12:38:22

ну если хотите уберите не существенный текст -> соберите со всех документов общие наиболее употребимые слова, после чего предварительно удаляйте их из всех текстов, оставляя тем самым только наиболее специфичный текст.

Как перед классификацией текста отделить документы которые нужно классифицировать от остальных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт