Здравствуйте!
Я новичек в машинном обучении. Пытаюсь решить задачу
www.kaggle.com/c/how-much-did-it-rain используя sklearn.
Кратко о задаче: нужно рассчитать вероятность принадлежности к классу. Классификация идет по количеству выпавших осадков. Всего есть 70 классов: 0mm осадков, 1mm осадков и т.д. до 69mm осадков.
Проблема в том, что в обучающей выборке количество осадков на самом деле записано в реальном виде, т.е. бывают записи типа 0.5mm или 65.8mm, а бывают вообще выбросы типа 20000mm. Я избавился от выбросов, а все остальные данные округлил к ближайшему целому. Оказалось, что после этого в обучающей выборке представлены 68 классов, а не 70 (т.е. тупо нет записей, у которых было бы 60mm осадков например). В связи с этим возникли вопросы.
1. Что делать, если в обучающей выборке нет представителей некоторых классов.
2. Можно ли задать набор классов в scikit-learn заранее, а не брать их из обучающей выборки?
3. Может быть посоветуете что нибудь? Какой обычно подход используется в таких случаях, когда метка класса - число с плавающей точкой и требуется рассчитать вероятность, что метка будет равна какому то числу?
Заранее спасибо!!!