Как рассчитать «похожесть» двух словарей?

Question

pcdesign @pcdesign

Как рассчитать «похожесть» двух словарей?

Вот, например, два словаря:

Апельсин 1
Яблоко 2
Банан 3

Апельсин 2
Яблоко 2
Инжир 1

На сколько одна накладная "похожа" на другую и получить коэффициент похожести?
Я понимаю, что скорее всего надо это решать с помощью https://ru.wikipedia.org/wiki/Коэффициент_Жаккара
На сколько долгий будет расчет просто с бумажкой и ручкой без компа?

Вопрос задан более трёх лет назад
392 просмотра

12 комментариев

Подписаться 1 Простой 12 комментариев

hint000 @hint000

Надо бы уточнить условия. Первая строка в двух словарях будет считаться сходством или различием?

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

hint000, да, считается сходством. Если и в первом и во втором словаре есть апельсин, то конечно это сходство.

Написано более трёх лет назад
12rbah @12rbah

Вам стоит уточнить то, что вы понимаете под "похожестью", потому что из условия не совсем понятно что вы хотите, т.к. есть несколько методик по расчету таких коэфициентов,
На сколько долгий будет расчет просто с бумажкой и ручкой без компа?
на этот вопрос не ответить т.к. вы не выбрали метод для определения похожести.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

12rbah, меня вполне устроит коэффициент Жаккара.

Написано более трёх лет назад
12rbah @12rbah

pcdesign, тогда в чем пробема подставить значения в формулу и расчитать? (сначала с бумажкой и ручкой)

upd: как я понял вы хотите, чтобы значения ключей тоже учитывались тогда "a+b" у вас должно быть равно сумме значений ключей, а "c" кол-ву схожих элементов 3/(6+5-3) для вашего случая.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

12rbah, в том что это словарь, а не список.

Написано более трёх лет назад
12rbah @12rbah

pcdesign, алгоритм такой:
1) подсчитываете значение ключей в первом словаре
2) подсчитываете значение ключей во втором словаре
3) находите одинаковые ключи в словарях
4) берете меньше значение из 2 и суммируете с переменной, которая играет роль "c"
5) рассчитываете значение по формуле

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Не совсем понятно как вы собираетесь применить коэффициент Жаккарда в чистом виде, если у вас важно количество? Очевидно требуется какая-то модификация и вероятно их можно придумать несколько вопрос лишь в том, что именно вы в своем случае понимаете под похожестью и для чего собираетесь использовать.

Что более важно для похожести - наличие элемента или его количество?

Самое примитивное решение в лоб использовать "дробное" количество видов. Например считать за один вид максимальное количество по обеем накладным. В данном случае у вас 2 вида в первой накладоной, и 1,66 во второй, и разность 1,66

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Александр Маджугин, Коэффициент сходства меня интересует, если слово "похожесть" смущает.

Наличие элемента - важнее кол-ва.

Написано более трёх лет назад
Александр Маджугин @Suntechnic

pcdesign, ну я и предлагаю лобовое решение для такого случая.

Если бы количество было важнее, тогда вопросов вообще нет - просто Апельсин:1 и Апельсин:2 - можно бы было считать за два разных вида.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

Александр Маджугин, спасибо, я нашел готовое решение. Вот если любопытно
https://stackoverflow.com/questions/35980910/retur...

Написано более трёх лет назад
Александр Маджугин @Suntechnic

pcdesign, ну тут отсутствие элемента это фактически его наличие с нулевым количеством, а вы говорили, что вам важнее отсутствие/наличие чем количество.
Но можно взять среднее между Жаккадом и этим методом... не знаю как его назвать - нормализованной дистанции?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

pcdesign @pcdesign Автор вопроса

Значения важны.
Иначе вопрос был бы как сравнить два списка и вычислить похожесть двух списков.
И вопрос стоит в коэффициенте похожести, а не в банальном сравнении ключей.

Написано более трёх лет назад
o5a @o5a
pcdesign, в таком случае видимо речь про расширенную формулу
$03cd5edc9fa1b9a4792a1e4fce67dd5eec364371$
Насколько я понимаю, она подразумевает это:

def coeffj(d1, d2): a = sum(d1.values()) b = sum(d2.values()) c = sum(min(d1.get(key,0), d2.get(key,0)) for key in d1.keys()|d2.keys()) return c/(a + b - c)

Если не то, то изложите своим языком, как должен рассчитываться этот критерий. К тому же не понятно, как должна работать для отрицательных значений. Если они должны учитываться как-то по-другому, то можете доработать функцию (изменить обработку get(, 0)) . Сейчас отсутствующий ключ приравнивается к 0.
Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

o5a, спасибо, возможно это то что нужно :)
Я еще нашел вот этот пост:
https://stackoverflow.com/questions/35980910/retur...

Надо прикинуть теперь.

Написано более трёх лет назад
pcdesign @pcdesign Автор вопроса

o5a, остановился на вашем варианте, он оказался самым точным для моей задачи. Спасибо еще раз!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 155 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 103 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 114 просмотров
1

ответ
Математика

Простой
Опечатка или нет?
- 1 подписчик
- 17 июл.
- 145 просмотров
2

ответа
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 377 просмотров
0

ответов
Математика

Средний
Что такое отношения в предикатной логике?
- 1 подписчик
- 05 июл.
- 155 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 119 просмотров
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 244 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 687 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 559 просмотров
2

ответа
Показать ещё Загружается…

Надо бы уточнить условия. Первая строка в двух словарях будет считаться сходством или различием?
hint000, да, считается сходством. Если и в первом и во втором словаре есть апельсин, то конечно это сходство.
Вам стоит уточнить то, что вы понимаете под "похожестью", потому что из условия не совсем понятно что вы хотите, т.к. есть несколько методик по расчету таких коэфициентов,
На сколько долгий будет расчет просто с бумажкой и ручкой без компа?
на этот вопрос не ответить т.к. вы не выбрали метод для определения похожести.
12rbah, меня вполне устроит коэффициент Жаккара.
pcdesign, тогда в чем пробема подставить значения в формулу и расчитать? (сначала с бумажкой и ручкой)

upd: как я понял вы хотите, чтобы значения ключей тоже учитывались тогда "a+b" у вас должно быть равно сумме значений ключей, а "c" кол-ву схожих элементов 3/(6+5-3) для вашего случая.
12rbah, в том что это словарь, а не список.
pcdesign, алгоритм такой:
1) подсчитываете значение ключей в первом словаре
2) подсчитываете значение ключей во втором словаре
3) находите одинаковые ключи в словарях
4) берете меньше значение из 2 и суммируете с переменной, которая играет роль "c"
5) рассчитываете значение по формуле
Не совсем понятно как вы собираетесь применить коэффициент Жаккарда в чистом виде, если у вас важно количество? Очевидно требуется какая-то модификация и вероятно их можно придумать несколько вопрос лишь в том, что именно вы в своем случае понимаете под похожестью и для чего собираетесь использовать.

Что более важно для похожести - наличие элемента или его количество?

Самое примитивное решение в лоб использовать "дробное" количество видов. Например считать за один вид максимальное количество по обеем накладным. В данном случае у вас 2 вида в первой накладоной, и 1,66 во второй, и разность 1,66
Александр Маджугин, Коэффициент сходства меня интересует, если слово "похожесть" смущает.

Наличие элемента - важнее кол-ва.
pcdesign, ну я и предлагаю лобовое решение для такого случая.

Если бы количество было важнее, тогда вопросов вообще нет - просто Апельсин:1 и Апельсин:2 - можно бы было считать за два разных вида.
Александр Маджугин, спасибо, я нашел готовое решение. Вот если любопытно
https://stackoverflow.com/questions/35980910/retur...
pcdesign, ну тут отсутствие элемента это фактически его наличие с нулевым количеством, а вы говорили, что вам важнее отсутствие/наличие чем количество.
Но можно взять среднее между Жаккадом и этим методом... не знаю как его назвать - нормализованной дистанции?

Answer 1 · 2021-01-19 10:35:11

Если значения ключей не важны для сравнения, то достаточно использовать keys()

d1 = {'Апельсин': 1,
'Яблоко': 2,
'Банан': 3
}

d2 = {'Апельсин': 2,
'Яблоко': 2,
'Инжир': 1
}

print(d1.keys())
# общие ключи
print(d1.keys()&d2.keys())

Судя по ссылке, этого достаточно для расчета Вашего коэффициента.

Answer 2 · 2021-01-19 17:43:48

Посмотрите на Bloom Filter. Возможно пригодится. Если построить bloom filter для каждого множества, то можно сравнивать насколько похожи фильтры.

Answer 3 · 2021-01-19 23:12:57

Если отсутствие слова в словаре равносильно слову с весом в 0, то можно считать какую-угодно меру от векторов чисел. Хоть корень из суммы квадратов разностей по каждому слову.

В вашем примере это будет (1-2)^2+(2-2)^2+(3-0)^2+(1-0)^2 = 11.
Чем меньше это число, тем похожее словари. Можно ее еще как-то нормировать, поделив на, допустим количество уникальных ключей в обоих словарях. Или на количество всевозможных слов.

Если ваш язык/структура позволяет пройтись по словарю в лексикографическом порядке, то можно подсчитать такую меру за линейное время выполняя что-то вроде слияния сортированных списков. Изначально 2 указателя на минимальные элементы (по словарю) в каждом словаре. Если два элемента с одинаковым ключем, то считайте разность двух весов и двигайте оба указателья. Иначе считайте разность веса с минимальным ключем и 0 и двигайте только этот указатель. Случай, когда один из словарей уже пуст совпадает со вторым случаем.

В питоне позволяет обходить ключи по порядку OrderedDict.

Как рассчитать «похожесть» двух словарей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт