Байесовский классификатор, проблема с выбором категории
Ситуация такая:
Есть классификатор, с помощью которого некоторые документы делятся на несколько категорий (пусть это будут 'good', 'bad' и 'unknown').
Считается все по формуле
Рr(Категория | Документ) = Рr(Документ | Категория) x Рr(Категория)
Pr(категория) — вероятность попадания случайного документа в данную категорию, вычисляется по формуле
число документов в данной категории / общее число документов
Сложилась такая ситуация, что после обучения в одной из категорий документов получилось в 4 раза больше, чем в остальных, соответственно, любой классифицируемый документ попадает в эту категорию. Если число образцов в категориях примерно одинаковое — все работает как надо (что, в принципе, неудивительно).
Согласен с предыдущим советом. Попробуйте для training выборки подобрать данные так, чтобы они репрезентативно представляли распределение генеральной совокупности, и на ней тренируйте классификатор.
«Метод желтого утенка» :) Не зря, наверное, везде пишут — что правильная выборка — наше все для корректного обучения. Буду пробовать. спасибо за совет. Была еще мысль заменить вероятность попадания в категорию некой константой, тогда бы совокупные вероятности слов влияли на исход классификации, и работало бы более правильно, на первый взгляд… Но это уже и не наивный байесовский классификатор вроде как получается:)