Представление категорических и порядковых данных линейной регрессии (машинное обучение)?

Question

Chichi @ChicoId

IT Specialist

Представление категорических и порядковых данных линейной регрессии (машинное обучение)?

Я пытаюсь полностью разобраться в разнице между представлением данных категорического и порядкового типов при выполнении регрессии. На данный момент существуют следующие правила:

Категорическая переменная и пример:
Цвет: красный, белый, черный
Почему категорическая: красный < белый < черный логически неверно

Порядковая переменная и пример:
Состояние: старый, реставрированный, новый
Почему порядковая: старый < реставрированный < новый логически верно

Методы перевода категорических и порядковых данных в численный формат:
Прямое кодирование (отображение) для категорических данных
Порядковое представление для порядковых данных.

Пример перевода категорических данных в числа:
data = {'color': ['blue', 'green', 'green', 'red']}

Численный формат:

id          Blue       Green      Red
0           1            0          0
1           0            1          0
2           0            1          0
3           0            0          1

Пример перевода порядковых данных в числа:
data = {'con': ['old', 'new', 'new', 'renovated']}

Численный формат после порядкового сопоставления: Старый < Реставрированный < Новый → 0, 1, 2

В моих данных я имею свойство "цвет". Если цвет меняется от белого к черному то цена повышается. Из вышеуказанных правил представления данных я вероятно должен использовать прямое кодирование для своей категорической переменной. Но я не могу понять почему я не могу использовать порядковое представление. Ниже я представил свои наблюдения из которых у меня и возник вопрос.

Для начала представлю формулу линейной регрессии:

Теперь посмотрим на различное представление данных для свойства "цвет"

На картинке One-hot encoding - это прямое кодирование. А дальше это мое порядковое кодирование.

Теперь попробуем спрогнозировать цену для 1 и 2 элемента данных используя формулу для обоих представлений:

Прямое кодирование:
В этом случае будут разные Theta (коэффициенты) для различных цветов. Для примера я предположил что все коэффициенты определены (20, 50, 100) для трех цветов. Прогноз будет таким:
Цена (1-й элемент) = 0 + 20*1 + 50*0 + 100*0 = 20$
Цена (2-й элемент) = 0 + 20*0 + 50*1 + 100*0 = 50$

Порядковое кодирование:
В этом случае все цвета буду иметь общую Theta (коэффициент) но различные множители (мои порядковые коды). Прогноз будет выглядеть:
Цена (1-й элемент) = 0 + 20*10 = 200$
Цена (2-й элемент) = 0 + 20*20 = 400$

В моей модели Белый < Красный < Черный с точки зрения цены. Кажется что корреляция в обоих случаях работает и прогнозы выглядят логичными для порядкового и категорического представления. То есть получается независимо от того какой тип данных я использую (порядковый или категорический) я могу использовать любой метод перевода данных в численный формат? И это разделение на два типа больше представляет собой следование сложившимся соглашениям и более компьютеро-ориентированное представление чем проблему логики самой регрессии. В обоих случаях будет правильная модель регрессии?

Вопрос задан более трёх лет назад
1197 просмотров

1 комментарий

Подписаться 2 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Машинное обучение

10 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 219 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 166 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 194 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 190 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 399 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 428 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 473 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 148 просмотров
3

ответа
Показать ещё Загружается…

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Поясни, пожалуйста, логику:
> Почему порядковая: старый < реставрированный < новый логически верно
Я не согласен с этим утверждением. Нельзя замерить количественно разницу между этими состояниями.

Answer 1 · 2015-12-04 19:21:39

1. По сути вся машинка сводится к решению оптимизационных задач. Есть набор ограничений и есть функция, которую надо оптимизировать (min, max). В вашем случае вы, скорее всего, минимизируете среднеквадратическое отклонение. Делите выборку на две части, обучаетесь на тренировочной, считаете значение на контрольной. Вот это значение и есть критерий качества вашей модели.

2. Если есть несколько моделей и непонятно какую выбрать. Нужно поделить выборку на три части. На первой части мы тренируем модели, на второй -- выбираем модель с наилучшим показателем, на третьей -- получаем значение оптимизируемой функции на победителе предыдущей части, тот самый критерий качества.

3. Вывод: теория -- это хорошо, но лучше честно сравнить модели по данным.

4. Теория. Если вы представляете одну категорию несколькими переменными, то у вас получается большая размерность. На примере, если цвет вносит вклад по принципу белый -- 0, красный -- 10, черный -- 20, то в одной модели это будет 10 * x_цвет, а в другой 0 * x_белый + 10 * x_красный + 20 * x_черный. В то же время ситуация выглядит как белый -- 0, красный -- 10, черный -- 100, то в первой модели точного представления уже не получится, а во второй можно по прежнему расставить соответствующие веса.

По сути модель с множеством переменных является обобщением модели с одной. Проблема только, что число переменных растет...

Представление категорических и порядковых данных линейной регрессии (машинное обучение)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт