Байесовский классификатор, проблема с выбором категории

Question

dtm @dtm

Байесовский классификатор, проблема с выбором категории

Ситуация такая:
Есть классификатор, с помощью которого некоторые документы делятся на несколько категорий (пусть это будут 'good', 'bad' и 'unknown').
Считается все по формуле

Рr(Категория | Документ) = Рr(Документ | Категория) x Рr(Категория)

Pr(категория) — вероятность попадания случайного документа в данную категорию, вычисляется по формуле

число документов в данной категории / общее число документов

Сложилась такая ситуация, что после обучения в одной из категорий документов получилось в 4 раза больше, чем в остальных, соответственно, любой классифицируемый документ попадает в эту категорию. Если число образцов в категориях примерно одинаковое — все работает как надо (что, в принципе, неудивительно).

Вопрос: как бороться?

Вопрос задан более трёх лет назад
4533 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 19 часов назад
- 63 просмотра
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 382 просмотра
2

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 302 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 217 просмотров
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 499 просмотров
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 460 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 361 просмотр
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 381 просмотр
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 216 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 273 просмотра
4

ответа
Показать ещё Загружается…

Answer 1 · 2013-03-09 19:52:01

Предполагаю, что самый правильный вариант — уравнять число образцов в категориях путем тщательной выборки данных для обучения, но вдруг?

Answer 2 · 2013-03-10 00:40:52

Согласен с предыдущим советом. Попробуйте для training выборки подобрать данные так, чтобы они репрезентативно представляли распределение генеральной совокупности, и на ней тренируйте классификатор.

Байесовский классификатор, проблема с выбором категории

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт