Как определить похожесть комплектации автомобиля?

Question

Александр Мурашкин @alex_romanov116

Web-developer

Как определить похожесть комплектации автомобиля?

Добрый день!

Имеется датасет комплектациий автомобилей:
- ID
- Бренд
- Модель
- Поколение
- Тип Двигателя
- Объем двигателя
- Количество цилиндров
- Тип кузов
- Тип коробки передач
- Код двигателя
- Год выпуска

Задача:
Требуется определить как одна комплектация похожа на другую.

Я предполагал представить каждую запись в датасете как вектор, и посчитать косинусную схожесть между векторами.

Но есть недопонимаем каким образом представить в численном виде значения например Тип Кузова: седан, кроссовер, купе и тд

Спасибо за помощь

Code SQL

with "norm" as not materialized (
select
"id" as "id",
(("yearStart" - "a"."yearStart.min")::numeric / "a"."yearStart.d") as "yearStart",
(("cylindersVolumeLiters" - "a"."cylindersVolumeLiters.min")::numeric / "a"."cylindersVolumeLiters.d") as "cylindersVolumeLiters",
(("enginePower" - "a"."enginePower.min")::numeric / "a"."enginePower.d") as "enginePower",
(("cylindersNumber" - "a"."cylindersNumber.min")::numeric / "a"."cylindersNumber.d") as "cylindersNumber",
(("valvesNumber" - "a"."valvesNumber.min")::numeric / "a"."valvesNumber.d") as "valvesNumber"
from
normative_reference.erp_car
left join lateral (
select
min("yearStart") as "yearStart.min",
(max("yearStart")-min("yearStart"))::numeric as "yearStart.d",
min("cylindersVolumeLiters") as "cylindersVolumeLiters.min",
(max("cylindersVolumeLiters")-min("cylindersVolumeLiters"))::numeric as "cylindersVolumeLiters.d",
min("enginePower") as "enginePower.min",
(max("enginePower")-min("enginePower"))::numeric as "enginePower.d",
min("cylindersNumber") as "cylindersNumber.min",
(max("cylindersNumber")-min("cylindersNumber"))::numeric as "cylindersNumber.d",
min("valvesNumber") as "valvesNumber.min",
(max("valvesNumber")-min("valvesNumber"))::numeric as "valvesNumber.d"
from
normative_reference.erp_car ) as "a" on
true
)
insert into normative_reference.erp_car_matrix_similarity
select
"car"."brandId" as "brandId",
"car"."id" as "carId",
"r"."id" as "relatedCarId",
cos_similarity_vector(
array[1, 1, 1, 1, 1, 1, "norm.car"."yearStart", "norm.car"."cylindersVolumeLiters", "norm.car"."enginePower", "norm.car"."cylindersNumber", "norm.car"."valvesNumber"], 
array[
case when r."generationId" = "car"."generationId" then 1 else 0 end,
case when r."modelId" = "car"."modelId" then 1 else 0 end,
case when r."brandId" = "car"."brandId" then 1 else 0 end,
case when r."fuelType" = "car"."fuelType" then 1 else 0 end,
case when r."engineCode" = "car"."engineCode" then 1 else 0 end,
case when r."workshopId" = "car"."workshopId" then 1 else 0 end,
"norm.relatedCar"."yearStart",
"norm.relatedCar"."cylindersVolumeLiters",
"norm.relatedCar"."enginePower",
"norm.relatedCar"."cylindersNumber",
"norm.relatedCar"."valvesNumber"
]
) as "similarity"
from normative_reference.erp_car as "car"
cross join normative_reference.erp_car as "r"
left join "norm" as "norm.car" on "norm.car"."id" = "car"."id"
left join "norm" as "norm.relatedCar" on "norm.relatedCar"."id" = "r"."id"

Вопрос задан более года назад
436 просмотров

5 комментариев

Подписаться 5 Средний 5 комментариев

Вася Пупкин @Desert-Eagle

Без ваших вариантов решения и попыток, звучит, как задание.

Написано более года назад

Александр Мурашкин @alex_romanov116 Автор вопроса

Вася Пупкин,

сначало я нормализовал значения используя метод min-max для числовых значений

затем начал формировать вектора

у меня данные хранятся в postgres поэтому код ниже на sql

with "norm" as not materialized (
select
"id" as "id",
(("yearStart" - "a"."yearStart.min")::numeric / "a"."yearStart.d") as "yearStart",
(("cylindersVolumeLiters" - "a"."cylindersVolumeLiters.min")::numeric / "a"."cylindersVolumeLiters.d") as "cylindersVolumeLiters",
(("enginePower" - "a"."enginePower.min")::numeric / "a"."enginePower.d") as "enginePower",
(("cylindersNumber" - "a"."cylindersNumber.min")::numeric / "a"."cylindersNumber.d") as "cylindersNumber",
(("valvesNumber" - "a"."valvesNumber.min")::numeric / "a"."valvesNumber.d") as "valvesNumber"
from
normative_reference.erp_car
left join lateral (
select
min("yearStart") as "yearStart.min",
(max("yearStart")-min("yearStart"))::numeric as "yearStart.d",
min("cylindersVolumeLiters") as "cylindersVolumeLiters.min",
(max("cylindersVolumeLiters")-min("cylindersVolumeLiters"))::numeric as "cylindersVolumeLiters.d",
min("enginePower") as "enginePower.min",
(max("enginePower")-min("enginePower"))::numeric as "enginePower.d",
min("cylindersNumber") as "cylindersNumber.min",
(max("cylindersNumber")-min("cylindersNumber"))::numeric as "cylindersNumber.d",
min("valvesNumber") as "valvesNumber.min",
(max("valvesNumber")-min("valvesNumber"))::numeric as "valvesNumber.d"
from
normative_reference.erp_car ) as "a" on
true
)
insert into normative_reference.erp_car_matrix_similarity
select
"car"."brandId" as "brandId",
"car"."id" as "carId",
"r"."id" as "relatedCarId",
cos_similarity_vector(
array[1, 1, 1, 1, 1, 1, "norm.car"."yearStart", "norm.car"."cylindersVolumeLiters", "norm.car"."enginePower", "norm.car"."cylindersNumber", "norm.car"."valvesNumber"], 
array[
case when r."generationId" = "car"."generationId" then 1 else 0 end,
case when r."modelId" = "car"."modelId" then 1 else 0 end,
case when r."brandId" = "car"."brandId" then 1 else 0 end,
case when r."fuelType" = "car"."fuelType" then 1 else 0 end,
case when r."engineCode" = "car"."engineCode" then 1 else 0 end,
case when r."workshopId" = "car"."workshopId" then 1 else 0 end,
"norm.relatedCar"."yearStart",
"norm.relatedCar"."cylindersVolumeLiters",
"norm.relatedCar"."enginePower",
"norm.relatedCar"."cylindersNumber",
"norm.relatedCar"."valvesNumber"
]
) as "similarity"
from normative_reference.erp_car as "car"
cross join normative_reference.erp_car as "r"
left join "norm" as "norm.car" on "norm.car"."id" = "car"."id"
left join "norm" as "norm.relatedCar" on "norm.relatedCar"."id" = "r"."id"

Написано более года назад

Komrus @Komrus

Тут ещё вопрос - для кого в КОНЕЧНОМ ИТОГЕ определяется эта похожесть/непохожесть комплектаций?
Если для широкого круга пользователей - то ещё надо будет (в дальнейшем хотя бы) учитывать, что для разных людей будут разные отсекающие признаки.

Кому-то - только кроссовер нужен. Всё что не равно кроссовер - вообще не подходит, даже если остальные признаки на 100% одинаковы будут.
Кому-то и кроссовер и седан подойдут, но вынь-да-положь коробку автомат. Ни на какие ручки он смотреть в принципе не готов. И предложение на ручке - оно вообще не релевантно будет...

Написано более года назад
Антон Киселёв @zamboga

Как я понимаю, задача найти схожие автомобили разных производителей (иначе слишком синтетическая задача и я не понимаю практического смысла её решения).
Тогда совпадения 1в1 должны быть, например: у типа кузова (седан/джип/и тд), коробки (механика/автомат), типа двигателя (дизель/бензин) и тп (пользователь выбирает, что ему важно).
А уж число цилиндров, код двигателя и тп. настолько вторичный параметр, что я даже не знаю, зачем их тащить из датасета. Скорее не хватает других параметров: тип климата, число мест, отделка салона (кожа/не кожа) и тп.

Написано более года назад
YuStep @YuStep

Антон Киселёв, кстати не факт, мне как водителю Volvo xc60 было бы интересно сравнить свою машину именно по внутренней сборке, скажем с машиной такой же мощности и мотором с таким же количеством цилиндров, а бывает и у разных марок и с одинаковым производителем. Как например Dacha, что то взяли от Вольво, я бы хотела знать по внутренностям что именно? Так же это всё может быть очень даже полезно на этапе подбора и ревью автомобилей одного класса, а всякое такое как материал салона и прочая фурнитура, такую комплектацию можно заказывать/менять дополнительно к почти любому автомобилю при покупке, поэтому зачем это сравнивать?

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Аналитик данных: расширенный курс

11 месяцев

Далее
Skillfactory

Data Scientist с нуля до PRO

25 месяцев

Далее
SF Education

Mini-MBA. Аналитик данных

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- вчера
- 26 просмотров
0

ответов
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 160 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 189 просмотров
1

ответ
Аналитика

Простой
Где посмотреть примеры оформления кода для экономического анализа данных?
- 1 подписчик
- 11 сент.
- 236 просмотров
2

ответа
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 182 просмотра
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 59 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 397 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 360 просмотров
1

ответ
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 2 подписчика
- 20 авг.
- 186 просмотров
3

ответа
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 447 просмотров
3

ответа
Показать ещё Загружается…

Продуктовый аналитик

Outlines Tech • Москва

До 280 000 ₽

Reverse engineer

Brain Shells

от 3 000 до 5 000 $

Аналитик

SLLR.market

от 180 000 до 250 000 ₽

Без ваших вариантов решения и попыток, звучит, как задание.
Тут ещё вопрос - для кого в КОНЕЧНОМ ИТОГЕ определяется эта похожесть/непохожесть комплектаций?
Если для широкого круга пользователей - то ещё надо будет (в дальнейшем хотя бы) учитывать, что для разных людей будут разные отсекающие признаки.

Кому-то - только кроссовер нужен. Всё что не равно кроссовер - вообще не подходит, даже если остальные признаки на 100% одинаковы будут.
Кому-то и кроссовер и седан подойдут, но вынь-да-положь коробку автомат. Ни на какие ручки он смотреть в принципе не готов. И предложение на ручке - оно вообще не релевантно будет...
Как я понимаю, задача найти схожие автомобили разных производителей (иначе слишком синтетическая задача и я не понимаю практического смысла её решения).
Тогда совпадения 1в1 должны быть, например: у типа кузова (седан/джип/и тд), коробки (механика/автомат), типа двигателя (дизель/бензин) и тп (пользователь выбирает, что ему важно).
А уж число цилиндров, код двигателя и тп. настолько вторичный параметр, что я даже не знаю, зачем их тащить из датасета. Скорее не хватает других параметров: тип климата, число мест, отделка салона (кожа/не кожа) и тп.
Антон Киселёв, кстати не факт, мне как водителю Volvo xc60 было бы интересно сравнить свою машину именно по внутренней сборке, скажем с машиной такой же мощности и мотором с таким же количеством цилиндров, а бывает и у разных марок и с одинаковым производителем. Как например Dacha, что то взяли от Вольво, я бы хотела знать по внутренностям что именно? Так же это всё может быть очень даже полезно на этапе подбора и ревью автомобилей одного класса, а всякое такое как материал салона и прочая фурнитура, такую комплектацию можно заказывать/менять дополнительно к почти любому автомобилю при покупке, поэтому зачем это сравнивать?

Answer 1 · 2024-07-30 16:23:35

Я предполагал представить каждую запись в датасете как вектор, и посчитать косинусную схожесть между векторами.

Косинусная здесь не подходит. Косинус учитывает вес каждого параметра. Например слова "шалаш" и "кабан"
содержат по 2 буквы "а" и это делает возможным введение косинусной метрики для дистанции двух слов.

У тебя автомобили содержат просто булевы признаки. Например тип_двигателя_дизель = true.
И сравнивать тебе выгоднее просто векторы такого вида { 1.0, 0.0, 1.0, 0.0 .... },
Тут дистанция хемминга была бы проще и вернее.

По поводу объема двигателя и года выпуска - решай сам. Но при численном сравнении
у тебя возникнет дилемма крокодила. Типа крокодил более зеленый чем плоский? Или наоборот.
Грубо говоря какой из параметров будет иметь БОЛЬШИЙ вес в при операциях сравнения.

Answer 2 · 2024-07-30 22:45:05

Нужно ввести метрики расстояния на каждую категорию (ID опускаем).
Признаки могут быть количественными и категориальными.
Код двигателя нужно расшифровать на несколько отдельных категорий и для каждой в отдельности также составить метрику расстояния.
Чем меньше совокупность расстояний, тем ближе к эталонной модели.

Answer 3 · 2024-07-30 21:29:11

Мне как видится тут следует искать совпадения. Ну. т.е. если полное совпадение считается как похожее. Тогда мы можем сказать что комплектация у которой не совпадает 1 параметр чуть менее похожа, 2 параметра еще менее похожа. И так до полностью не похожей.

Как определить похожесть комплектации автомобиля?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт