Задать вопрос
ChicoId
@ChicoId
IT Specialist

Какой алгоритм регрессии выбрать для шумных (разбросанных) данных?

Я хочу построить регрессию с несколькими переменными (multiple features). В моих данных у меня n = 23 переменных и m = 13000 тренировочных примеров. Вот график моих тренировочных данных (площадь квартиры vs цена):
9c15f08184ed46a98306e3237e8aeee5.png

Здесь на графике отображены 13000 тренировочных данных. Как вы можете видеть, это достаточно шумные данные. Мой вопрос: какой алгоритм регрессии больше подходит и обоснован для использования в моем случае. Имею ввиду логично ли использовать простую линейную регрессию или лучше использовать какой-либо нелинейный алгоритм регрессии.

Для наглядности приведу примеры. Вот отвлеченный пример линейной регрессии:
345851461a5040f0830f1dc517a13873.png

А также отвлеченный пример нелинейной регрессии: 30fc6dd11c1b41c4965c0d887050aca7.png

А вот примеры с гипотетическими линиями регрессии для моих данных: d5c4dfe89ce94f1e99e84fb94a69697f.png

Насколько я понимаю, примитивная линейная регрессия для моих данных произведет большую суммарную погрешность (error cost), так как эти данные шумные и разбросанные. С другой стороны, здесь также не прослеживается какой-либо отчетливой нелинейной зависимости (например синусоидальной). Какой алгоритм регрессии более рационально использовать в моем случае (цены на квартиры) для того чтобы получить более точное прогнозирование цен. И почему этот алгоритм (линейный или нелинейный) более рационален?

Дополнение:
Вот так выглядит мой график линейной зависимости цены от всех 23 параметров , отображенный на данных цена-площадь:
51e576e9520c4f85adf5e7bdc8d21c21.jpg
Я не знаю, как бы выглядела НЕлинейная зависимость в таком случае. И была бы она более рациональна чем линейная.
  • Вопрос задан
  • 677 просмотров
Подписаться 2 Оценить 3 комментария
Пригласить эксперта
Ответы на вопрос 3
Foolleren
@Foolleren
Компас есть, копать не люблю...
а вы составьте уравнение типа y=t; t= сумма(k1*x1^2+k2*x1+k3) ну есесно кофициенты свои для каждой переменной и натравите программу которая будет перебирать коэффициенты так чтобы в итоге получилась прямая
Ответ написан
Комментировать
angrySCV
@angrySCV
machine learning, programming, startuping
какого хрена на графике все параметры смешаны?
вполне очевидно что каждый параметр вносит влияние в модель с определённым весом, вам нужно подобрать веса для этих параметров.
начните с линейной зависимости, потом можно перейти на полиномы 2го или 3го порядка если уж вам так не терпиться.
вы же можете везде оценивать суммарную ошибку (стоимость), какая модель с меньшей ошибкой, такая типа и лучше.
Ответ написан
Комментировать
@Grebenshchikov_Alex
Зав. Лаб.
берите среднее значение по каждой вертикальной единице.
потом можно попробовать изменить шаг для того чтобы увидеть общий тренд.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы