Какой алгоритм регрессии выбрать для шумных (разбросанных) данных?

Question

Chichi @ChicoId

IT Specialist

Какой алгоритм регрессии выбрать для шумных (разбросанных) данных?

Я хочу построить регрессию с несколькими переменными (multiple features). В моих данных у меня n = 23 переменных и m = 13000 тренировочных примеров. Вот график моих тренировочных данных (площадь квартиры vs цена):

Здесь на графике отображены 13000 тренировочных данных. Как вы можете видеть, это достаточно шумные данные. Мой вопрос: какой алгоритм регрессии больше подходит и обоснован для использования в моем случае. Имею ввиду логично ли использовать простую линейную регрессию или лучше использовать какой-либо нелинейный алгоритм регрессии.

Для наглядности приведу примеры. Вот отвлеченный пример линейной регрессии:

А также отвлеченный пример нелинейной регрессии:

А вот примеры с гипотетическими линиями регрессии для моих данных:

Насколько я понимаю, примитивная линейная регрессия для моих данных произведет большую суммарную погрешность (error cost), так как эти данные шумные и разбросанные. С другой стороны, здесь также не прослеживается какой-либо отчетливой нелинейной зависимости (например синусоидальной). Какой алгоритм регрессии более рационально использовать в моем случае (цены на квартиры) для того чтобы получить более точное прогнозирование цен. И почему этот алгоритм (линейный или нелинейный) более рационален?

Дополнение:
Вот так выглядит мой график линейной зависимости цены от всех 23 параметров , отображенный на данных цена-площадь:

Я не знаю, как бы выглядела НЕлинейная зависимость в таком случае. И была бы она более рациональна чем линейная.

Вопрос задан более трёх лет назад
687 просмотров

3 комментария

Подписаться 2 Оценить 3 комментария

nirvimel @nirvimel

У вас в модели 32 переменные, вы показываете зависимость от одной и визуально делаете вывод, что данные шумные? Интересно.

Написано более трёх лет назад
Chichi @ChicoId Автор вопроса

Не знаю как представить визуально зависимость данных от 23 переменных. Ведь в таком случае и 3D не поможет.

Написано более трёх лет назад
nirvimel @nirvimel

Дмитрий Фролов: Никак не представить, поэтому визуально оценить наличие/отсутствие шумов и степень зашумленности невозможно. То что выглядит как шум на графике зависимости от x1, на самом деле может являться результатом влияния x2.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Инженерия машинного обучения

2 года

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее
Skypro

Нейросети с 0

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 82 просмотра
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек. 2025
- 272 просмотра
1

ответ
Искусственный интеллект

Простой
Как сделать синхронный перевод с английского на русский, локально?
- 3 подписчика
- 06 дек. 2025
- 318 просмотров
1

ответ
Искусственный интеллект

Простой
Сравнение стилей двух разных текстов: один или разные люди их писали или вообще ИИ?
- 2 подписчика
- 05 дек. 2025
- 182 просмотра
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб. 2025
- 458 просмотров
3

ответа
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб. 2025
- 595 просмотров
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт. 2025
- 291 просмотр
2

ответа
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт. 2025
- 373 просмотра
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт. 2025
- 795 просмотров
5

ответов
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 2 подписчика
- 01 окт. 2025
- 856 просмотров
4

ответа
Показать ещё Загружается…

ML Data engineer (LLM Gigachat)

Сбер • Москва

от 200 000 ₽

Автоматизация (webrtc) + оплаты на Android/iOS с девайсов

Donatov.net

от 150 000 до 350 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

У вас в модели 32 переменные, вы показываете зависимость от одной и визуально делаете вывод, что данные шумные? Интересно.
Не знаю как представить визуально зависимость данных от 23 переменных. Ведь в таком случае и 3D не поможет.
Дмитрий Фролов: Никак не представить, поэтому визуально оценить наличие/отсутствие шумов и степень зашумленности невозможно. То что выглядит как шум на графике зависимости от x1, на самом деле может являться результатом влияния x2.

Answer 1 · 2016-01-26 09:16:27

а вы составьте уравнение типа y=t; t= сумма(k1*x1^2+k2*x1+k3) ну есесно кофициенты свои для каждой переменной и натравите программу которая будет перебирать коэффициенты так чтобы в итоге получилась прямая

Answer 2 · 2016-01-26 09:31:25

какого хрена на графике все параметры смешаны?
вполне очевидно что каждый параметр вносит влияние в модель с определённым весом, вам нужно подобрать веса для этих параметров.
начните с линейной зависимости, потом можно перейти на полиномы 2го или 3го порядка если уж вам так не терпиться.
вы же можете везде оценивать суммарную ошибку (стоимость), какая модель с меньшей ошибкой, такая типа и лучше.

Answer 3 · 2016-01-26 14:58:15

берите среднее значение по каждой вертикальной единице.
потом можно попробовать изменить шаг для того чтобы увидеть общий тренд.

Какой алгоритм регрессии выбрать для шумных (разбросанных) данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт