Как определить похожесть комплектации автомобиля?

Question

Александр Мурашкин @alex_romanov116

Web-developer

Как определить похожесть комплектации автомобиля?

Добрый день!

Имеется датасет комплектациий автомобилей:
- ID
- Бренд
- Модель
- Поколение
- Тип Двигателя
- Объем двигателя
- Количество цилиндров
- Тип кузов
- Тип коробки передач
- Код двигателя
- Год выпуска

Задача:
Требуется определить как одна комплектация похожа на другую.

Я предполагал представить каждую запись в датасете как вектор, и посчитать косинусную схожесть между векторами.

Но есть недопонимаем каким образом представить в численном виде значения например Тип Кузова: седан, кроссовер, купе и тд

Спасибо за помощь

Code SQL

with "norm" as not materialized (
select
"id" as "id",
(("yearStart" - "a"."yearStart.min")::numeric / "a"."yearStart.d") as "yearStart",
(("cylindersVolumeLiters" - "a"."cylindersVolumeLiters.min")::numeric / "a"."cylindersVolumeLiters.d") as "cylindersVolumeLiters",
(("enginePower" - "a"."enginePower.min")::numeric / "a"."enginePower.d") as "enginePower",
(("cylindersNumber" - "a"."cylindersNumber.min")::numeric / "a"."cylindersNumber.d") as "cylindersNumber",
(("valvesNumber" - "a"."valvesNumber.min")::numeric / "a"."valvesNumber.d") as "valvesNumber"
from
normative_reference.erp_car
left join lateral (
select
min("yearStart") as "yearStart.min",
(max("yearStart")-min("yearStart"))::numeric as "yearStart.d",
min("cylindersVolumeLiters") as "cylindersVolumeLiters.min",
(max("cylindersVolumeLiters")-min("cylindersVolumeLiters"))::numeric as "cylindersVolumeLiters.d",
min("enginePower") as "enginePower.min",
(max("enginePower")-min("enginePower"))::numeric as "enginePower.d",
min("cylindersNumber") as "cylindersNumber.min",
(max("cylindersNumber")-min("cylindersNumber"))::numeric as "cylindersNumber.d",
min("valvesNumber") as "valvesNumber.min",
(max("valvesNumber")-min("valvesNumber"))::numeric as "valvesNumber.d"
from
normative_reference.erp_car ) as "a" on
true
)
insert into normative_reference.erp_car_matrix_similarity
select
"car"."brandId" as "brandId",
"car"."id" as "carId",
"r"."id" as "relatedCarId",
cos_similarity_vector(
array[1, 1, 1, 1, 1, 1, "norm.car"."yearStart", "norm.car"."cylindersVolumeLiters", "norm.car"."enginePower", "norm.car"."cylindersNumber", "norm.car"."valvesNumber"], 
array[
case when r."generationId" = "car"."generationId" then 1 else 0 end,
case when r."modelId" = "car"."modelId" then 1 else 0 end,
case when r."brandId" = "car"."brandId" then 1 else 0 end,
case when r."fuelType" = "car"."fuelType" then 1 else 0 end,
case when r."engineCode" = "car"."engineCode" then 1 else 0 end,
case when r."workshopId" = "car"."workshopId" then 1 else 0 end,
"norm.relatedCar"."yearStart",
"norm.relatedCar"."cylindersVolumeLiters",
"norm.relatedCar"."enginePower",
"norm.relatedCar"."cylindersNumber",
"norm.relatedCar"."valvesNumber"
]
) as "similarity"
from normative_reference.erp_car as "car"
cross join normative_reference.erp_car as "r"
left join "norm" as "norm.car" on "norm.car"."id" = "car"."id"
left join "norm" as "norm.relatedCar" on "norm.relatedCar"."id" = "r"."id"

Вопрос задан более года назад
436 просмотров

5 комментариев

Подписаться 5 Средний 5 комментариев

Вася Пупкин @Desert-Eagle

Без ваших вариантов решения и попыток, звучит, как задание.

Написано более года назад

Александр Мурашкин @alex_romanov116 Автор вопроса

Вася Пупкин,

сначало я нормализовал значения используя метод min-max для числовых значений

затем начал формировать вектора

у меня данные хранятся в postgres поэтому код ниже на sql

with "norm" as not materialized (
select
"id" as "id",
(("yearStart" - "a"."yearStart.min")::numeric / "a"."yearStart.d") as "yearStart",
(("cylindersVolumeLiters" - "a"."cylindersVolumeLiters.min")::numeric / "a"."cylindersVolumeLiters.d") as "cylindersVolumeLiters",
(("enginePower" - "a"."enginePower.min")::numeric / "a"."enginePower.d") as "enginePower",
(("cylindersNumber" - "a"."cylindersNumber.min")::numeric / "a"."cylindersNumber.d") as "cylindersNumber",
(("valvesNumber" - "a"."valvesNumber.min")::numeric / "a"."valvesNumber.d") as "valvesNumber"
from
normative_reference.erp_car
left join lateral (
select
min("yearStart") as "yearStart.min",
(max("yearStart")-min("yearStart"))::numeric as "yearStart.d",
min("cylindersVolumeLiters") as "cylindersVolumeLiters.min",
(max("cylindersVolumeLiters")-min("cylindersVolumeLiters"))::numeric as "cylindersVolumeLiters.d",
min("enginePower") as "enginePower.min",
(max("enginePower")-min("enginePower"))::numeric as "enginePower.d",
min("cylindersNumber") as "cylindersNumber.min",
(max("cylindersNumber")-min("cylindersNumber"))::numeric as "cylindersNumber.d",
min("valvesNumber") as "valvesNumber.min",
(max("valvesNumber")-min("valvesNumber"))::numeric as "valvesNumber.d"
from
normative_reference.erp_car ) as "a" on
true
)
insert into normative_reference.erp_car_matrix_similarity
select
"car"."brandId" as "brandId",
"car"."id" as "carId",
"r"."id" as "relatedCarId",
cos_similarity_vector(
array[1, 1, 1, 1, 1, 1, "norm.car"."yearStart", "norm.car"."cylindersVolumeLiters", "norm.car"."enginePower", "norm.car"."cylindersNumber", "norm.car"."valvesNumber"], 
array[
case when r."generationId" = "car"."generationId" then 1 else 0 end,
case when r."modelId" = "car"."modelId" then 1 else 0 end,
case when r."brandId" = "car"."brandId" then 1 else 0 end,
case when r."fuelType" = "car"."fuelType" then 1 else 0 end,
case when r."engineCode" = "car"."engineCode" then 1 else 0 end,
case when r."workshopId" = "car"."workshopId" then 1 else 0 end,
"norm.relatedCar"."yearStart",
"norm.relatedCar"."cylindersVolumeLiters",
"norm.relatedCar"."enginePower",
"norm.relatedCar"."cylindersNumber",
"norm.relatedCar"."valvesNumber"
]
) as "similarity"
from normative_reference.erp_car as "car"
cross join normative_reference.erp_car as "r"
left join "norm" as "norm.car" on "norm.car"."id" = "car"."id"
left join "norm" as "norm.relatedCar" on "norm.relatedCar"."id" = "r"."id"

Написано более года назад

Komrus @Komrus

Тут ещё вопрос - для кого в КОНЕЧНОМ ИТОГЕ определяется эта похожесть/непохожесть комплектаций?
Если для широкого круга пользователей - то ещё надо будет (в дальнейшем хотя бы) учитывать, что для разных людей будут разные отсекающие признаки.

Кому-то - только кроссовер нужен. Всё что не равно кроссовер - вообще не подходит, даже если остальные признаки на 100% одинаковы будут.
Кому-то и кроссовер и седан подойдут, но вынь-да-положь коробку автомат. Ни на какие ручки он смотреть в принципе не готов. И предложение на ручке - оно вообще не релевантно будет...

Написано более года назад
Антон Киселёв @zamboga

Как я понимаю, задача найти схожие автомобили разных производителей (иначе слишком синтетическая задача и я не понимаю практического смысла её решения).
Тогда совпадения 1в1 должны быть, например: у типа кузова (седан/джип/и тд), коробки (механика/автомат), типа двигателя (дизель/бензин) и тп (пользователь выбирает, что ему важно).
А уж число цилиндров, код двигателя и тп. настолько вторичный параметр, что я даже не знаю, зачем их тащить из датасета. Скорее не хватает других параметров: тип климата, число мест, отделка салона (кожа/не кожа) и тп.

Написано более года назад
YuStep @YuStep

Антон Киселёв, кстати не факт, мне как водителю Volvo xc60 было бы интересно сравнить свою машину именно по внутренней сборке, скажем с машиной такой же мощности и мотором с таким же количеством цилиндров, а бывает и у разных марок и с одинаковым производителем. Как например Dacha, что то взяли от Вольво, я бы хотела знать по внутренностям что именно? Так же это всё может быть очень даже полезно на этапе подбора и ревью автомобилей одного класса, а всякое такое как материал салона и прочая фурнитура, такую комплектацию можно заказывать/менять дополнительно к почти любому автомобилю при покупке, поэтому зачем это сравнивать?

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Аналитик данных + ИИ

6 месяцев

Далее
ProductStar × РБК

Профессия: Аналитик данных + ИИ

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Аналитика

Средний
DAX \ Power BI как сделать меру через промежуточную таблицу?
- 2 подписчика
- 08 апр.
- 44 просмотра
1

ответ
Машинное обучение

Простой
Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?
- 2 подписчика
- 22 янв.
- 135 просмотров
0

ответов
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 119 просмотров
0

ответов
Аналитика

Средний
Как структурировать работу над новым проектом в бизнес аналитике. Какая очередность у всего процесса аналитики?
- 1 подписчик
- 15 янв.
- 112 просмотров
1

ответ
Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 119 просмотров
1

ответ
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек. 2025
- 311 просмотров
1

ответ
Excel

+1 ещё

Средний
PowerQuery эффективность применения при работе с большим к-вом файлов?
- 2 подписчика
- 12 дек. 2025
- 324 просмотра
2

ответа
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб. 2025
- 74 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент. 2025
- 182 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент. 2025
- 201 просмотр
1

ответ
Показать ещё Загружается…

Аналитик-консультант 1С

1С-Архитектор бизнеса • Москва

от 104 400 ₽

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Системный аналитик

ITK academy • Краснодар

от 75 000 до 130 000 ₽

Без ваших вариантов решения и попыток, звучит, как задание.
Тут ещё вопрос - для кого в КОНЕЧНОМ ИТОГЕ определяется эта похожесть/непохожесть комплектаций?
Если для широкого круга пользователей - то ещё надо будет (в дальнейшем хотя бы) учитывать, что для разных людей будут разные отсекающие признаки.

Кому-то - только кроссовер нужен. Всё что не равно кроссовер - вообще не подходит, даже если остальные признаки на 100% одинаковы будут.
Кому-то и кроссовер и седан подойдут, но вынь-да-положь коробку автомат. Ни на какие ручки он смотреть в принципе не готов. И предложение на ручке - оно вообще не релевантно будет...
Как я понимаю, задача найти схожие автомобили разных производителей (иначе слишком синтетическая задача и я не понимаю практического смысла её решения).
Тогда совпадения 1в1 должны быть, например: у типа кузова (седан/джип/и тд), коробки (механика/автомат), типа двигателя (дизель/бензин) и тп (пользователь выбирает, что ему важно).
А уж число цилиндров, код двигателя и тп. настолько вторичный параметр, что я даже не знаю, зачем их тащить из датасета. Скорее не хватает других параметров: тип климата, число мест, отделка салона (кожа/не кожа) и тп.
Антон Киселёв, кстати не факт, мне как водителю Volvo xc60 было бы интересно сравнить свою машину именно по внутренней сборке, скажем с машиной такой же мощности и мотором с таким же количеством цилиндров, а бывает и у разных марок и с одинаковым производителем. Как например Dacha, что то взяли от Вольво, я бы хотела знать по внутренностям что именно? Так же это всё может быть очень даже полезно на этапе подбора и ревью автомобилей одного класса, а всякое такое как материал салона и прочая фурнитура, такую комплектацию можно заказывать/менять дополнительно к почти любому автомобилю при покупке, поэтому зачем это сравнивать?

Answer 1 · 2024-07-30 16:23:35

Я предполагал представить каждую запись в датасете как вектор, и посчитать косинусную схожесть между векторами.

Косинусная здесь не подходит. Косинус учитывает вес каждого параметра. Например слова "шалаш" и "кабан"
содержат по 2 буквы "а" и это делает возможным введение косинусной метрики для дистанции двух слов.

У тебя автомобили содержат просто булевы признаки. Например тип_двигателя_дизель = true.
И сравнивать тебе выгоднее просто векторы такого вида { 1.0, 0.0, 1.0, 0.0 .... },
Тут дистанция хемминга была бы проще и вернее.

По поводу объема двигателя и года выпуска - решай сам. Но при численном сравнении
у тебя возникнет дилемма крокодила. Типа крокодил более зеленый чем плоский? Или наоборот.
Грубо говоря какой из параметров будет иметь БОЛЬШИЙ вес в при операциях сравнения.

Answer 2 · 2024-07-30 22:45:05

Нужно ввести метрики расстояния на каждую категорию (ID опускаем).
Признаки могут быть количественными и категориальными.
Код двигателя нужно расшифровать на несколько отдельных категорий и для каждой в отдельности также составить метрику расстояния.
Чем меньше совокупность расстояний, тем ближе к эталонной модели.

Answer 3 · 2024-07-30 21:29:11

Мне как видится тут следует искать совпадения. Ну. т.е. если полное совпадение считается как похожее. Тогда мы можем сказать что комплектация у которой не совпадает 1 параметр чуть менее похожа, 2 параметра еще менее похожа. И так до полностью не похожей.

Как определить похожесть комплектации автомобиля?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт