Байесовский классификатор, проблема с выбором категории

Ситуация такая:
Есть классификатор, с помощью которого некоторые документы делятся на несколько категорий (пусть это будут 'good', 'bad' и 'unknown').
Считается все по формуле

Рr(Категория | Документ) = Рr(Документ | Категория) x Рr(Категория)

Pr(категория) — вероятность попадания случайного документа в данную категорию, вычисляется по формуле

число документов в данной категории / общее число документов

Сложилась такая ситуация, что после обучения в одной из категорий документов получилось в 4 раза больше, чем в остальных, соответственно, любой классифицируемый документ попадает в эту категорию. Если число образцов в категориях примерно одинаковое — все работает как надо (что, в принципе, неудивительно).

Вопрос: как бороться?
  • Вопрос задан
  • 4526 просмотров
Решения вопроса 1
@dtm Автор вопроса
Предполагаю, что самый правильный вариант — уравнять число образцов в категориях путем тщательной выборки данных для обучения, но вдруг?
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
alexeygrigorev
@alexeygrigorev
Переворачиватель пингвинов
Согласен с предыдущим советом. Попробуйте для training выборки подобрать данные так, чтобы они репрезентативно представляли распределение генеральной совокупности, и на ней тренируйте классификатор.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы