Как получить какой-нибудь хеш от значения переменной (dict)?

Question

Ярослав @xenon

Too drunk to fsck

Python

Как получить какой-нибудь хеш от значения переменной (dict)?

В скрипте проверяются данные (конкретно - о сетевых подключениях) и хочется найти те из них, которые уже слишком долго живут. О каждом сетевом соединении мы можем получить его данные в формате dict(). Вот хочется через 10 минут убедиться, что проверяемое соединение мы уже видели раньше (10 минут назад), сравнив его хеш.

>>> d1={"a":1}
>>> id(d1)
281473806329984
>>> d2={"a":1}
>>> id(d2)
281473806330112
>>> d1==d2
True

Вот по примеру видно, что сравнивать id нельзя, одинаковые dict() - это все-таки разные объекты. Сравнивать через == можно, но как-то не очень красиво, хранить целый dict. Нельзя ли сейчас как-то посчитать что-то от d1, через 10 минут посчитать что-то от d2, и чтобы оно сошлось?

Ну и есть ли для этого стандартный путь, а то велосипед изобрету.

Вопрос задан более двух лет назад
278 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

Ярослав @xenon Автор вопроса

Вот примерно так я и думал сделать, но мне кажется, что это "велосипед" и на самом деле есть какой-то модуль который лучше их хеширует. А этот ваш ответ - от ChatGPT, нет? :-)

Проблема не в том, что я не могу выдумать решение, я боюсь, что я упускаю стандартное решение.

Написано более двух лет назад
metalexs @metalexs

Ярослав, Нет, ответ не от gpt, а я готовил его для заказчика в прошлом. На мой взгляд - это адекватное решение.

Написано более двух лет назад
Ярослав @xenon Автор вопроса
Вообще, да, технически, для моей задачи - совершенно подходит. Мне только не нравится, что оно самописно-велосипедное (я бы так же сделал, и мне это и не нравится). Наверняка должно быть решение лучше, быстрее, надежнее.

Я нашел, оно в hash. Но беда в том, что в пайтоне дикты не хешируются:

>>> d={"a":1} >>> hash(d) Traceback (most recent call last): File "<stdin>", line 1, in <module> TypeError: unhashable type: 'dict'

Но есть решение!

class hashabledict(dict): def __hash__(self): return hash(tuple(sorted(self.items())))

Пробуем....

>>> d1=hashabledict({"a":1}) >>> d2=hashabledict({"a":1}) >>> id(d1) 140407093637744 >>> id(d2) 140407093637584 >>> hash(d1) -4488753233891433094 >>> hash(d2) -4488753233891433094

источник:
https://stackoverflow.com/questions/1151658/python...
Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ярослав @xenon Автор вопроса

Тогда уж по-правильному, не только IP:порт удаленного узла сравнивать, но и всю четверку (IP:порт каждого конца). На UDP можем для упрощения забить. Да, в рамках задачи такое решение сработает. Но я подумал, что есть общее решение, способное выдать значение по дикту. Похоже, что общего решения нет.

Вообще, вариант выше с сериализацией через json неплох, но проблема, что в dict будут не только простые типы, которые сериализуются в json, но и более сложные.

Написано более двух лет назад
Vindicar @Vindicar

Ярослав, хэш по словарю в целом - плохая идея в общем случае. Например, что если в словаре будет значение - метка времени последнего полученного пакета? Тогда словарь даже для одного и того же соединения будет разный. Опять-таки без конкретики ничего сказать нельзя, так что в таких случаях выбрать минимум, и от него отталкиваться.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 555 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 282 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 510 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2023-10-24 20:17:52

Для того чтобы получить хеш-значение от словаря (dict), вы можете использовать hashlib из стандартной библиотеки Python. Один из популярных и безопасных алгоритмов хеширования — это SHA-256.

Сначала, нужно сериализовать словарь в строковое представление (например, в формат JSON), а затем получить хеш этой строки.

import hashlib
import json

def dict_hash(d):
    serialized_data = json.dumps(d, sort_keys=True).encode()
    return hashlib.sha256(serialized_data).hexdigest()

d1 = {"a": 1}
d2 = {"a": 1}

hash1 = dict_hash(d1)
hash2 = dict_hash(d2)

print(hash1 == hash2)  # Вернет True, потому что содержимое словарей идентично

Этот метод позволяет получить уникальное строковое представление для каждого уникального словаря. По сути, вы можете сохранить это значение хеша и проверять его через 10 минут. Если хеши совпадают, то содержимое словарей также совпадает.

Обратите внимание, что в этом методе используется sort_keys=True при сериализации в JSON. Это делается для гарантии того, что порядок ключей в словаре не влияет на результат хеширования. Если порядок ключей может изменяться, но при этом словари остаются идентичными, то без сортировки ключей у вас могут получаться разные хеш-значения для идентичных словарей.

Answer 2 · 2023-10-24 20:22:35

Очевидно, надо в каждом словаре найти значение, которое уникально идентифицирует соединение.
Я бы сказал, это пара IP:порт удаленного узла (с которым установлено соединение).
Не уверен, будет ли эта информация в словаре, так как ты не озаботился привести пример, и как это будет работать с UDP (где формальных соединений нет), но попытаться можно.

Как получить какой-нибудь хеш от значения переменной (dict)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт