Можно ли так описать хэш-таблицу?

Question

zlodiak @zlodiak

Python

Можно ли так описать хэш-таблицу?

Готовлюсь сдавать экзамен и пробую описать в общих чертах как работает словарь на основе хэш-таблицы. Оцените пожалуйста, можно ли так рассказать о ней:

словари и множества организованы на основе хэш-таблицы(ХТ).

ХТ это разреженный массив. примерно треть состоит из пустых значений. По мере изменения размера он время от времени перестраивается в новый участок памяти, изменяя количество своих элементов. Поэтому изменять словарь в цикле плохая идея(Нужно сначала прогнать цикл, а затем внести изменения).

Хэш с одной стороны связан с ключом, с другой стороны связан со значением. Каким-то хитрым, но быстрым способом(подробности я не понял, но, думаю, можно их пропустить) при запросе элемента через ключ, ключ сопоставляется с хэшем. При этом если поиск не попал в пустую ячейку(я чуть выше писал, что ХТ приблизительно на треть состоит из незаполненных значений) и если найдено соответствие, то выдаётся значение.

Таким образом можно запросить значение по ключу: arr[key]. Поиск происходит очень быстро потому что не приходится перебирать все значения(пусть даже двоичным поиском) как например в случае со списком.

Я упустил что-нибудь важное? Как можно дополнить и что стоит почитать?

Вопрос задан более трёх лет назад
242 просмотра

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

2 комментария

Max Payne @YardalGedal

Про пункт 2, прокомментируйте, пожалуйста, следующее:
{"a": 1, **{"b": 2}}

Написано более трёх лет назад
Roman K @deliro
Max Payne,

1. Создаётся словарь {"a": 1}
2. Создаётся словарь {"b": 2}
3. Запускается опкод BUILD_MAP_UNPACK, который запускает PyDict_Update, который запускает dict_merge, где в цикле пробегаются по всем записям из второго словаря и добавляют их в первый. Да, при этом ХТ расширяется сразу так, чтобы влезли все элементы второго словаря:

/* Do one big resize at the start, rather than * incrementally resizing as we insert new items. Expect * that there will be no (or few) overlapping keys. */ if (USABLE_FRACTION(mp->ma_keys->dk_size) < other->ma_used) { if (dictresize(mp, ESTIMATE_SIZE(mp->ma_used + other->ma_used))) { return -1; } }

Это работает только если второй элемент — словарь, а не итератор, возвращающий пары элементов.

if (PyDict_Check(b) && (Py_TYPE(b)->tp_iter == (getiterfunc)dict_iter)) {

Так что, как я и говорил, элементы добавляются в цикле. Но ХТ при этом расширяется сразу на ближайшую степень двойки справа от dict1_size + dict2_size
Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 492 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 506 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 125 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

https://habr.com/ru/post/247843/ почему примерно треть из пустых значений? какие словари изменять в цикле плохая идея? почему "поиск происходит очень быстро" (очень быстро это за секунду?), а не за время не зависящее от количества элементов?

Answer 1 · 2019-02-19 00:24:51

1. ХТ пуста от 2/3 своего размера до 1/3. 1/3 - это уже она вот-вот реаллоцируется.
2. Про циклы - фигня. В питоне нет ни одного способа добавить элементы кучей так, чтобы на самом деле они добавились не в цикле на уровне Си. Даже dict comprehensions добавляют элементы последовательно.
3. Хэш от ключа - это встроенная функция hash(). Для конкретной ХТ берется остаток от деления хэша на размер ХТ. На самом деле, берётся хэш по битовой маске (размер_ХТ - 1) [Например hash(obj) & 2**16 - 1]. Но для степеней двойки эти операции равноценны.
4. Ты совсем забыл момент с разрешением коллизий (это когда хэши двух разных ключей совпадают). В питоновых словарях это самый интересный момент. И именно из-за него удаленные данные из словаря не удаляются физически до следующей реаллокации.
5. "Очень быстро" - это как?

UPD.

На текущий момент реализация словаря в питоне поменялась. В 3.6 версии сделали все словари по умолчанию ordered и заодно уменьшили размер словаря в байтах на 20-25%. Вот реализация актуальных словарей на питоне (в оригинале, она, конечно на Си):

Раскрыть

import array
import collections
import itertools

# Placeholder constants
FREE = -1
DUMMY = -2


class Dict(collections.MutableMapping):
    "Space efficient dictionary with fast iteration and cheap resizes."

    @staticmethod
    def _gen_probes(hashvalue, mask):
        "Same sequence of probes used in the current dictionary design"
        PERTURB_SHIFT = 5
        if hashvalue < 0:
            hashvalue = -hashvalue
        i = hashvalue & mask
        yield i
        perturb = hashvalue
        while True:
            i = (5 * i + perturb + 1) & 0xFFFFFFFFFFFFFFFF
            yield i & mask
            perturb >>= PERTURB_SHIFT

    def _lookup(self, key, hashvalue):
        "Same lookup logic as currently used in real dicts"
        assert self.filled < len(self.indices)  # At least one open slot
        freeslot = None
        for i in self._gen_probes(hashvalue, len(self.indices) - 1):
            index = self.indices[i]
            if index == FREE:
                return (FREE, i) if freeslot is None else (DUMMY, freeslot)
            elif index == DUMMY:
                if freeslot is None:
                    freeslot = i
            elif (
                self.keylist[index] is key
                or self.hashlist[index] == hashvalue
                and self.keylist[index] == key
            ):
                return (index, i)

    @staticmethod
    def _make_index(n):
        "New sequence of indices using the smallest possible datatype"
        if n <= 2 ** 7:
            return array.array("b", [FREE]) * n  # signed char
        if n <= 2 ** 15:
            return array.array("h", [FREE]) * n  # signed short
        if n <= 2 ** 31:
            return array.array("l", [FREE]) * n  # signed long
        return [FREE] * n  # python integers

    def _resize(self, n):
        """Reindex the existing hash/key/value entries.
           Entries do not get moved, they only get new indices.
           No calls are made to hash() or __eq__().

        """
        n = 2 ** n.bit_length()  # round-up to power-of-two
        self.indices = self._make_index(n)
        for index, hashvalue in enumerate(self.hashlist):
            for i in Dict._gen_probes(hashvalue, n - 1):
                if self.indices[i] == FREE:
                    break
            self.indices[i] = index
        self.filled = self.used

    def clear(self):
        self.indices = self._make_index(8)
        self.hashlist = []
        self.keylist = []
        self.valuelist = []
        self.used = 0
        self.filled = 0  # used + dummies

    def __getitem__(self, key):
        hashvalue = hash(key)
        index, i = self._lookup(key, hashvalue)
        if index < 0:
            raise KeyError(key)
        return self.valuelist[index]

    def __setitem__(self, key, value):
        hashvalue = hash(key)
        index, i = self._lookup(key, hashvalue)
        if index < 0:
            self.indices[i] = self.used
            self.hashlist.append(hashvalue)
            self.keylist.append(key)
            self.valuelist.append(value)
            self.used += 1
            if index == FREE:
                self.filled += 1
                if self.filled * 3 > len(self.indices) * 2:
                    self._resize(4 * len(self))
        else:
            self.valuelist[index] = value

    def __delitem__(self, key):
        hashvalue = hash(key)
        index, i = self._lookup(key, hashvalue)
        if index < 0:
            raise KeyError(key)
        self.indices[i] = DUMMY
        self.used -= 1
        # If needed, swap with the lastmost entry to avoid leaving a "hole"
        if index != self.used:
            lasthash = self.hashlist[-1]
            lastkey = self.keylist[-1]
            lastvalue = self.valuelist[-1]
            lastindex, j = self._lookup(lastkey, lasthash)
            assert lastindex >= 0 and i != j
            self.indices[j] = index
            self.hashlist[index] = lasthash
            self.keylist[index] = lastkey
            self.valuelist[index] = lastvalue
        # Remove the lastmost entry
        self.hashlist.pop()
        self.keylist.pop()
        self.valuelist.pop()

    def __init__(self, *args, **kwds):
        if not hasattr(self, "keylist"):
            self.clear()
        self.update(*args, **kwds)

    def __len__(self):
        return self.used

    def __iter__(self):
        return iter(self.keylist)

    def iterkeys(self):
        return iter(self.keylist)

    def keys(self):
        return list(self.keylist)

    def itervalues(self):
        return iter(self.valuelist)

    def values(self):
        return list(self.valuelist)

    def iteritems(self):
        return itertools.izip(self.keylist, self.valuelist)

    def items(self):
        return zip(self.keylist, self.valuelist)

    def __contains__(self, key):
        index, i = self._lookup(key, hash(key))
        return index >= 0

    def get(self, key, default=None):
        index, i = self._lookup(key, hash(key))
        return self.valuelist[index] if index >= 0 else default

    def popitem(self):
        if not self.keylist:
            raise KeyError("popitem(): dictionary is empty")
        key = self.keylist[-1]
        value = self.valuelist[-1]
        del self[key]
        return key, value

    def __repr__(self):
        return "Dict(%r)" % self.items()

    def show_structure(self):
        "Diagnostic method.  Not part of the API."
        print("=" * 50)
        print(self)
        print("Indices:", self.indices)
        for i, row in enumerate(zip(self.hashlist, self.keylist, self.valuelist)):
            print(i, row)
        print("-" * 50)


if __name__ == "__main__":
    d = Dict([("timmy", "red"), ("barry", "green"), ("guido", "blue")])
    d.show_structure()

Описание (возможно, понадобится VPN из-за выходок РКН)

Можно ли так описать хэш-таблицу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт