Я хочу построить регрессию с несколькими переменными (multiple features). В моих данных у меня n = 23 переменных и m = 13000 тренировочных примеров. Вот график моих тренировочных данных (площадь квартиры vs цена):
![9c15f08184ed46a98306e3237e8aeee5.png](https://habrastorage.org/files/9c1/5f0/818/9c15f08184ed46a98306e3237e8aeee5.png)
Здесь на графике отображены 13000 тренировочных данных. Как вы можете видеть, это достаточно шумные данные. Мой вопрос: какой алгоритм регрессии больше подходит и обоснован для использования в моем случае. Имею ввиду логично ли использовать простую линейную регрессию или лучше использовать какой-либо нелинейный алгоритм регрессии.
Для наглядности приведу примеры. Вот отвлеченный пример линейной регрессии:
![345851461a5040f0830f1dc517a13873.png](https://habrastorage.org/files/345/851/461/345851461a5040f0830f1dc517a13873.png)
А также отвлеченный пример нелинейной регрессии:
![30fc6dd11c1b41c4965c0d887050aca7.png](https://habrastorage.org/files/30f/c6d/d11/30fc6dd11c1b41c4965c0d887050aca7.png)
А вот примеры с гипотетическими линиями регрессии для моих данных:
![d5c4dfe89ce94f1e99e84fb94a69697f.png](https://habrastorage.org/files/d5c/4df/e89/d5c4dfe89ce94f1e99e84fb94a69697f.png)
Насколько я понимаю, примитивная линейная регрессия для моих данных произведет большую суммарную погрешность (error cost), так как эти данные шумные и разбросанные. С другой стороны, здесь также не прослеживается какой-либо отчетливой нелинейной зависимости (например синусоидальной). Какой алгоритм регрессии более рационально использовать в моем случае (цены на квартиры) для того чтобы получить более точное прогнозирование цен. И почему этот алгоритм (линейный или нелинейный) более рационален?
Дополнение:
Вот так выглядит мой график линейной зависимости цены от всех 23 параметров , отображенный на данных цена-площадь:
![51e576e9520c4f85adf5e7bdc8d21c21.jpg](https://habrastorage.org/files/51e/576/e95/51e576e9520c4f85adf5e7bdc8d21c21.jpg)
Я не знаю, как бы выглядела НЕлинейная зависимость в таком случае. И была бы она более рациональна чем линейная.