Как устроены хэштаблицы?

Question

beduin01 @beduin01

Алгоритмы

Как устроены хэштаблицы?

Вопрос простой. Вот к примеру мы наполняет хэш-таблицу данными. В начале хэштаблица пустая. Хэш элемента у нас получается к примеру 42. Т.е. мы должны его на 42 позицию записать. Получается что мы должны дорастить таблицу с 0 до 42? Ведь иначе то позиционный номер аргумента никакого толку не даст. А если хэш следующего будет 100500 то тогда получается придется создать огромную таблицу, но она всего из двух элементов будет состоять?

Или как эту проблема решается?

Вопрос задан более трёх лет назад
240 просмотров

3 комментария

Подписаться 2 Простой 3 комментария

Сергей Соколов @sergiks Куратор тега Алгоритмы
хэши обычно не числа, а строки
{ "c2ecdbaeca0428": "Alice", "e561b4b6b9ad8c": "Bob", }
Написано более трёх лет назад
alexalexes @alexalexes

Даже если ключами являются числа, то нужна такая структура данных в конкретной среде разработки, которая бы не пыталась создать эти промежутки.
При чтении хэш-таблицы неотъемлемой операцией будет проверка на существование ключа, так что вам никакие промежутки не нужны.

Написано более трёх лет назад
mayton2019 @mayton2019

В языках программирования в 99% случаев хешом будет целое 32х битное число integer.

Хотя хеш функции определены для результата типа MD5, SHA1, SHA256 , но на практике нас будет интересовать простота применения. Атомарный тип удобнее чем byte-array.

Кроме того многие реализации хеш таблиц ограничены 32х битным числом части бакетов. Для Java это поряка 1 млрд. (2 << 30). И это ограничение я встречал даже 64х битных языках программирования. Видимо создатели решили что не найдется такого безумца который создаст больше 1 млрд бакетов.

Для моего кейса с социальными номерами всех жителей планеты Земля обычная Java HashMap не подойдет. Уже не будет масштабирования. Хотя мне сложно себе представить такую таблицу. В момент реорганизации она может потребовать в 3 раза больше памяти чем занимает.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Алгоритмы и структуры данных для разработчиков

3 месяца

Далее
Яндекс Практикум

Алгоритмы и структуры данных

4 месяца

Далее
Stepik

Алгоритмы и структуры данных

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 287 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт.
- 203 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 206 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 175 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 343 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 182 просмотра
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 157 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 244 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 192 просмотра
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 316 просмотров
3

ответа
Показать ещё Загружается…

Разработчик Blender / 3D Technical Artist

Академия Компьютерных Технологий и Дизайна

от 94 000 ₽

Backend developer/ software engineer (Python) в команду DCIM

Яндекс • Москва

от 350 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

хэши обычно не числа, а строки
{ "c2ecdbaeca0428": "Alice", "e561b4b6b9ad8c": "Bob", }
Даже если ключами являются числа, то нужна такая структура данных в конкретной среде разработки, которая бы не пыталась создать эти промежутки.
При чтении хэш-таблицы неотъемлемой операцией будет проверка на существование ключа, так что вам никакие промежутки не нужны.
В языках программирования в 99% случаев хешом будет целое 32х битное число integer.

Хотя хеш функции определены для результата типа MD5, SHA1, SHA256 , но на практике нас будет интересовать простота применения. Атомарный тип удобнее чем byte-array.

Кроме того многие реализации хеш таблиц ограничены 32х битным числом части бакетов. Для Java это поряка 1 млрд. (2 << 30). И это ограничение я встречал даже 64х битных языках программирования. Видимо создатели решили что не найдется такого безумца который создаст больше 1 млрд бакетов.

Для моего кейса с социальными номерами всех жителей планеты Земля обычная Java HashMap не подойдет. Уже не будет масштабирования. Хотя мне сложно себе представить такую таблицу. В момент реорганизации она может потребовать в 3 раза больше памяти чем занимает.

Answer 1 · 2022-09-30 15:08:12

Сначала выделяется массив какого-то размера, например 256. Обычно длина - степень двойки. Потом хеш обрезается до размера таблицы. Если элементов становится слишком много, то происходит перехеширование - размер таблицы увеличивается, и все элементы в нее перезапихиваются.

Но да, если в таблицу запихать много элементов, а потом почти все оттуда удалить, то она будет большая и почти вся пустая.

Edit:

Эта "проблема" никак не решается. Это и не проблема вовсе. Просто хеш-таблицы работают быстрее всяких балансированных деревьев или тупо сортированного массива за счет большего расхода памяти. Это нужно знать и дальше уже решать - что вам больше подходит под вашу конкретную задачу.

Answer 2 · 2022-09-30 15:13:24

Данный вопрос безсмысенно обсуждать только в разделе АЛГОРИТМЫ.

Дело в том что в каждом языке программирования есть своя реализация хеш-таблиц со своими преференциями.
Например в Java создается по умолчанию пустая табличка с 16 buckets и с фактором загрузки 0.75.

Типы данных для ключей и значений - могут быть любые. От них лишь требуется один контракт. Ключи должны позволять на себе посчитать хеш. И ключи нужно сравнивать на равенство и они должны быть иммутабельны. Тоесть ключом не может быть объект представляющий системный таймер например или генератор случайных чисел.

Для случая автора число 42. Мы считаем остаток от деления на 16 это будет 10. Тоесть мы запишем в 10 бакет. А после того как в табличку зайдет большое число ключей и и соотношение ключей и емкости станет больше чем 0.75 - будет создана новая таблица с 32 бакетами и старые данные будут скопированы туда с реогранизацией ключей. Это тяжеловатая процедура поэтому изначально хеш-таблицу рекомендуется создавать уже с заранее известным capacity. Если хотите хранить 6 млрд социальных номеров людей планеты земля - то создавайте соотв такую таблицу. Тогда реорганизации не будет. И load factor можно сделать близким к 1.0.

(Старая таблица с 16 бакетами после этой процедуры будет уничтожена)

Как устроены хэштаблицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт