Как задать набор классов для классификации в scikit-learn?

Question

Perzh @Perzh

Python

Как задать набор классов для классификации в scikit-learn?

Здравствуйте!
Я новичек в машинном обучении. Пытаюсь решить задачу www.kaggle.com/c/how-much-did-it-rain используя sklearn. Кратко о задаче: нужно рассчитать вероятность принадлежности к классу. Классификация идет по количеству выпавших осадков. Всего есть 70 классов: 0mm осадков, 1mm осадков и т.д. до 69mm осадков.
Проблема в том, что в обучающей выборке количество осадков на самом деле записано в реальном виде, т.е. бывают записи типа 0.5mm или 65.8mm, а бывают вообще выбросы типа 20000mm. Я избавился от выбросов, а все остальные данные округлил к ближайшему целому. Оказалось, что после этого в обучающей выборке представлены 68 классов, а не 70 (т.е. тупо нет записей, у которых было бы 60mm осадков например). В связи с этим возникли вопросы.
1. Что делать, если в обучающей выборке нет представителей некоторых классов.
2. Можно ли задать набор классов в scikit-learn заранее, а не брать их из обучающей выборки?
3. Может быть посоветуете что нибудь? Какой обычно подход используется в таких случаях, когда метка класса - число с плавающей точкой и требуется рассчитать вероятность, что метка будет равна какому то числу?
Заранее спасибо!!!

Вопрос задан более трёх лет назад
573 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

3 комментария

Perzh @Perzh Автор вопроса

Спасибо за ответ! Вероятности нужны по условию задачи, все что я могу сказать =) На сколько я понял, регрессия позволяет спрогнозировать значение. Но как оценить вероятность?

Написано более трёх лет назад
Роман @idap

Perzh Я потому и начал список методов регрессии с relevance vector machine и гауссовых процессов - оба метода позволяют оценить искомую вероятность. Смотрите, например, здесь www.machinelearning.ru/wiki/images/d/d0/BMMO11_7.pdf на странице 16.

Написано более трёх лет назад
Perzh @Perzh Автор вопроса

idap: спасибо большое! Буду пробовать.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 18 часов назад
- 81 просмотр
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 21 час назад
- 94 просмотра
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- вчера
- 142 просмотра
0

ответов
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- вчера
- 127 просмотров
0

ответов
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- вчера
- 38 просмотров
1

ответ
Python

+1 ещё

Простой
Как настроить группы при создании нового пользователя в битриксе?
- 1 подписчик
- 14 авг.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
При добавления строчки @commands.has_permissions в терминале при запуске выдает ошибку?
- 1 подписчик
- 14 авг.
- 87 просмотров
0

ответов
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 127 просмотров
0

ответов
Python

Простой
Не работает код, что делать?
- 2 подписчика
- 10 авг.
- 2126 просмотров
4

ответа
Python

Простой
Почему консольная программа перестает работать спустя время?
- 3 подписчика
- 08 авг.
- 2295 просмотров
3

ответа
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Answer 1 · 2015-04-06 14:40:04

Я примерно на вашем уровне в МО, но по-моему это значит, что предсказывать нужно float, а уже потом делить на классы. Возможно, придется предварительно регуляризовать имеющиеся метки (свести к диапазону 0-1), а результат предсказания умножать на 70 перед отправкой.

Answer 2 · 2015-04-07 10:44:01

По вопросам (без привязки к задаче):
1. Ну а какие могут быть варианты? Либо получить такие данные, либо считать что таких классов нет. (Могут быть еще варианты, но это скорее костыли уже)
2. Не понял вопрос.
3. По моему, в данной задаче подходят методы аппроксимации плотностей вероятностей по данным (типа scipy.stats.gaussian_kde), непараметрические методы оценки плотности. Данных я не видел, но по описанию задачи сложилось такое впечатление.
На мой взгляд, классификаторы совсем не подходят для решения в данном случае.

Update. Посмотрел данные. Нужна регрессия: relevance vector machine, может быть гауссовы процессы (тут надо смотреть определение и думать, подходит ли), ну и обычную линейную никто не отменял. Не понял правда зачем нужны вероятности.

Как задать набор классов для классификации в scikit-learn?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт