Хорошая ли идея использовать в качестве ID (первичного ключа) мд5 хеш?

Question

Влад Мистецкий @VladMystetskyi

Full-stack web developer

Хорошая ли идея использовать в качестве ID (первичного ключа) мд5 хеш?

Собственно проектирую базу данных, сущностями в которой есть изображения. Хочу избежать проблем с дубликатами имен, дырками после удалений (если использовать просто инкремент айди) и везде в качестве айди использовать хешы. Вероятность коллизий вроде бы совсем не высокая на предполагаемом количестве объектов в базе.

Какие могут быть подводные камни?

Вопрос задан более трёх лет назад
8625 просмотров

2 комментария

Подписаться 3 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 14

Комментировать

2 комментария

3 комментария

Комментировать

1 комментарий

Комментировать

1 комментарий

2 комментария

Maxim Avanov @Ghostwriter

В вашей задаче, вам не нужен ни MD5, ни автоинкрементный INT, как советовали выше.
Используйте в качестве первичного ключа бинарное поле и вписывайте в него 16-байтные UUID4-последовательности, а пользователям можете отдавать их в виде 32-символьной HEX-строки.

Про накладные расходы. По сравнению с int64, каким должен быть автоинкрементный счётчик, размер поля окажется больше всего на 8 байт (в 2 раза), что для вашего случая — совсем не проблема.
Убедитесь лишь, что ваши индексы всегда умещается целиком в физической памяти, а не хранятся частично или полностью в свопе на диске. Природа UUID такова, что он генерирует равномерно распределенные значения, а значит, поиск по такому индексу будет подвержен эффекту «случайного поиска» (random lookup). И если ваш индекс хотя бы частично хранится на диске, то это может привести к многочисленным random seeks и очень медленной выборке.

Написано более трёх лет назад
Maxim Avanov @Ghostwriter

Выбрал не то поле для ответа, прошу прощения.

Написано более трёх лет назад

16 комментариев

Влад Мистецкий @VladMystetskyi Автор вопроса

Картинки, различных размеров.
Мд5 строить все равно придется, просто хотелось бы понять почему не стоит использовать его в качестве праймери ки

Написано более трёх лет назад
xiWera @xiWera

Можете попробовать, до первой коллизии :)
Простая арифметика подсказывает что множество разнообразных картинок гораздо больше чем количество md5 сумм и коллизии неизбежны. Тогда уж sha сумму + размер + формат картинки как id. Тогда коллизии сведуться в этом случае практически к минимуму.
Но я бы не стал.

Написано более трёх лет назад
Андрей @OLS

Интересная у Вас «простая арифметика». Приведите расчет?

Написано более трёх лет назад
xiWera @xiWera

2^128 — вариантов md5 сумм
2^(n*8) вариантов картинок, где n размер картинки в байтах.
очевидно что n во втором случае очень часто больше 16 :)

Написано более трёх лет назад
Андрей @OLS

По «парадоксу дней рождения» для появления первой коллизии с вероятностью 1/2 для хеш-функции разрядностью 128 бит, необходимо создать 2^64 объектов (в нашем случае файлов).

Если каждый житель земли (2^33) будет создавать ежесекундно днем и ночью по одному файлу, то первая коллизия на земном шаре произойдет примерно через 64 года.

P.S. Кстати, как Вы себе представляете базу на (2^64) файлов? Если каждая картинка хотя бы 10 байт, то Вам потребуется 167.772.160 Терабайт.

Написано более трёх лет назад
xiWera @xiWera

Ага, только забывают что и входящий набор (картинки) это не случайные данные (например первые несколько байт у картинок повторяются, так как там заголовок да и в разных картинках разные битовые последовательности более часты). А исходящий набор это не случайная величина, и получена путем алгоритмических действий из первой

Написано более трёх лет назад
Андрей @OLS

Если я правильно понял последнее сообщение, Вы указываете на то, что случайно может сформироваться коллизия из-за того, что хеш — суть детерминированный алгоритм и если его применить над слегка отличающимися данными, то возможны совпадения?

Поверьте, ученые 14 лет (с 1991 по 2005) искали возможность умышленно построить ну хоть какие-нибудь коллизии к MD5 — безуспешно.

Написано более трёх лет назад
xiWera @xiWera

во первых вы опять случайность сравниваете с умышленностью, во вторых повторюсь, входящие данные не случайны. Они представляют собой определенные байтовые наборы, md5 работает с 64 байтовыми блоками, соответственно если у файлов одинаковое начало (у картинок вполне может быть, так как там зачастую заголовок) то уже первый блок будет иметь одинаковую сумму и разнообразие уменьшается.

Только что ради подтверждения своей мысли прогнал пользовательскую вебфайлопомойку:
уникальных sha хешей: 1951
уникальных md5 хешей: 1605
Не случайные данные, тут ничего не поделаешь.

Написано более трёх лет назад
Владимир Чернышев @VolCh

А сколько файлов? sha корректно «подписала»?

Написано более трёх лет назад
xiWera @xiWera

по sha совпадает только на полностью одинаковых файлах, но тоже повезло, но тут конечно в 2^32 везения больше :)

Написано более трёх лет назад
Андрей @OLS

Только что ради подтверждения своей мысли прогнал пользовательскую вебфайлопомойку:
уникальных sha хешей: 1951
уникальных md5 хешей: 1605

Проверьте работоспособность Вашего md5 или алгоритма поиска уникальных значений. Уникальных MD5 и SHA-1 хэшей должно быть одинаково.

Написано более трёх лет назад
xiWera @xiWera

не обязано. полсотни миллионов файлов, справедливости ради скажу что размер у файлов таки разный.

Написано более трёх лет назад
xiWera @xiWera

тьфу блин, 20 миллионов это в другом месте, тут только пара тысяч. Те файлы на которых образовалась коллизия довольно специфические.

Написано более трёх лет назад
andoriyu @andoriyu

Как это безуспешно? На хабре не так давно проскакивала статья — habrahabr.ru/blogs/infosecurity/113127/

А то, что часть файлов одинаковая это мало на, что влияет — Лавинный эффект никто не отменял.

Написано более трёх лет назад
Андрей @OLS

Я писал, что до 2005 алгоритмов умышленного построения не было — это говорит о многом.
Ваш термин «лавинный эффект» я называю «парадоксом дней рождения», как это принято в криптографии (см. раздел «Приложения»). Его действие учтено мною — я отдельно это подчеркнул в посте про расчет вероятности первой случайной коллизии.

На моей выборке 17051 уникальных MD5 и 17051 уникальных SHA-1 из 18569 файлов. Файлы примерно однотипные, длиной от 3000 до 15000 байт.

Написано более трёх лет назад
xiWera @xiWera

Я всё таки настаиваю на том, что вы путаете применяя «случайные» коллизии к совсем не случайным файлам.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 294 просмотра
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 286 просмотров
3

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 330 просмотров
3

ответа
Хеширование

Простой
Какие есть совместимые алгоритмы хеширования между C# и Java?
- 1 подписчик
- 11 мар.
- 160 просмотров
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 166 просмотров
2

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 782 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 161 просмотр
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 118 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 303 просмотра
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 241 просмотр
1

ответ
Показать ещё Загружается…

Т.е. пропуски в случае удаления в автоинкрементном ключе вас волнуют, а совершенно рандомные значения md5 — нет? Почему бы тогда автоинкрементный ключ не трактовать аналогично, представляя его функцией свёртки от времени?
Какие проблемы с дырками после удалений?

Answer 1 · 2011-05-17 22:58:50

Мой учитель по Java мне говорил: «Каждый раз, когда вы используете hash как id, вы убиваете котёнка.»

Answer 2 · 2011-05-17 22:36:56

Не очень хорошая идея. Инт всегда лучше для примари поля.
Я бы использовал int( или bigint) с автоинкрементоv, для внутренних целей, а наружу уже передавал бы md5, предварительно записанный в эту же таблицу отдельным полем, либо md5(id+salt)

Answer 3 · 2011-05-18 00:03:06

Да легко. Не ведитесь на старые учения — современные движки БД, и даже MyISAM работают с текстовыми индексами не существенно медленнее, чем с целочисленными.

Если есть сомнения — просто попробуйте оценить реальную нагрузку. Скорее всего, это место узким не будет. Помните о принципе «вреда преждевременной оптимизации», который гласит: «Преждевременная оптимизация — вредна.»

Я бы усомнился в целесообразности самого решения, но не в плане ресурсоемкости, а в плане удобства разработки. Получить идентификатор свежевставленной записи, сопроводить ее внешними ключами, отработать исключения — все это делается как бы на автопилоте. Если действительно не требуются дополнительные функциональности, для которых необходимы дополнительные ключи (которые в свою очередь так-же можно обслужить во внешней таблице, как родительские....)

Answer 4 · 2011-05-17 23:09:05

md5-хэш в качестве id следует использовать только, если он заменяет составной ключ (несколько ключевых полей). В остальных случаях мы используем int (bigint) с unsigned и auto_increment.

Answer 5 · 2011-05-18 10:05:55

В вашей задаче, вам не нужен ни MD5, ни автоинкрементный INT, как советовали выше.
Используйте в качестве первичного ключа бинарное поле и вписывайте в него 16-байтные UUID4-последовательности, а пользователям можете отдавать их в виде 32-символьной HEX-строки.

Про накладные расходы. По сравнению с int64, каким должен быть автоинкрементный счётчик, размер поля окажется больше всего на 8 байт (в 2 раза), что для вашего случая — совсем не проблема.
Убедитесь лишь, что ваши индексы всегда умещается целиком в физической памяти, а не хранятся частично или полностью в свопе на диске. Природа UUID такова, что он генерирует равномерно распределенные значения, а значит, поиск по такому индексу будет подвержен эффекту «случайного поиска» (random lookup). И если ваш индекс хотя бы частично хранится на диске, то это может привести к многочисленным random seeks и очень медленной

Answer 6 · 2011-05-18 00:12:22

Просто вот это — дырками после удалений (если использовать просто инкремент айди) — а в чем тут проблема? Ну будут дырки и будут. Это же суррогатные ключи.

Да, если уйти глубоко в стек, можно поговорить по clustering factor на индексах и прочем ;) но это уже мелочи.
Повторю, я бы использовал внутри СУБД именно этот подход.

Answer 7 · 2011-05-18 14:40:16

Если «Мд5 строить все равно придется», он будет заведомо уникальным (то есть логика не допускает добавления двух картинок с одним хэшем), то почему нет (при условии что индексы и основной, и связанных таблиц будут помещаться в памяти, если важно быстродействие). В любом случае, насколько я понимаю, хэш будет считаться только при попытке добавления картинки в базу, а количество выборок по ид будет много больше числа таких попыток.

Вот только я бы посоветовал хорошо подумать, а действительно ли вам нужна уникальность хэша, не может ли это требование потом измениться. Или, скажем, решите сменить алгоритм хэша — изменение отдельного уникального поля куда менее дешевая операция, чем изменение основного ключа и всех индексов связанных таблиц.

Плюс, если я правильно понял идею (что-то вроде фотохостинга, хэш картинки используется для урлов) могут быть интересные ситуации типа: один пользователь добавил картинку, получил её новый урл, потом второй добавил её же, система засекла дубликат и выдала уже существующий хэш. Затем первый пользователь удалил картинку, система засекла, что есть ещё ссылки и удалила только ссылку из альбомов первого пользователя, не удаляя саму картинку — в итоге первый пользователь может увидеть, что несмотря на удаление картинка осталась доступна по старому урлу. Кому-то может всё равно, а кто-то может поднять крик про личные данные и т. п.

Answer 8 · 2011-05-18 00:07:40

Zorkus @Zorkus

Какие веские причины не использовать autogenerated surrogate key?

Ответ написан более трёх лет назад

2 комментария

Answer 9 · 2011-05-18 06:47:52

Пума Тайланд @opium

Просто люблю качественно работать

Не иди по пути идиотизма.

Ответ написан более трёх лет назад

2 комментария

Answer 10 · 2011-05-17 22:30:52

xiWera @xiWera

А каков размер поля по которому строится md5-хэш? И что там за данные?

Ответ написан более трёх лет назад

16 комментариев

Answer 11 · 2011-05-18 03:30:58

Алексей @alexkbs

Используйте SHA1, как в Git.

Ответ написан более трёх лет назад

Комментировать

Answer 12 · 2011-05-18 11:05:02

а какая БД? у MongoDB на этот случай прекрасное решение в качестве ID: 12-ти байтное число, которое формируется исходя из узла (при шардинге), timestamp'а, process ID и всего трёх байт автоинкремента (подробнее здесь). Возможно есть подобное для РБД.

Answer 13 · 2011-05-19 04:14:10

Помимо уже упомянутых подводных камней (размеры таблиц и индексов, производительность) и других по мелочи, не назвали самый главный — использование естественного ключа для PK вместо суррогатного. На эту тему написано много умных статей и глупых холиваров на форумах, я тут расписывать не буду, просто приведу одну ситуацию:

«Ой, не ту картинку загрузили! Надо срочно исправить!… Ой, это было месяц назад, на нее уже куча ссылок в куче таблиц… Ой, там такие констрейнты, простой UPDATE не прокатит… Ой, часть данных уже в архиве, что с ними делать?..»

Answer 14 · 2011-05-19 10:11:31

Cогласен с учителем Norraxx (17 мая в 23:58 «Мой учитель по Java мне говорил: «Каждый раз, когда вы используете hash как id, вы убиваете котёнка.»») и VitaZheltyakov (md5-хэш в качестве id следует использовать только, если он заменяет составной ключ (несколько ключевых полей). В остальных случаях мы используем int (bigint) с unsigned и auto_increment). Причём только в том случае если суммарная сложность поиска по нескольким ключевым полям будет выше, чем у хеша…

Чем меньше ключ — тем быстрее происходит поиск по нему, поэтому всегда надо стремиться минимизировать его размер.

Поиск по числовому ключу зачастую много быстрее (бывает, что и до 4х раз быстрее, возможно и ещё быстрее) нежели поиск по числу той же длинны… и это верно не только для реляционных СУБД, но и для подавляющего большинства языков программирования (вполне вероятно, что потребуется искать в множестве, полученном ранее из БД).

Исходя из вашей задачи, для начала, в качестве типа PK я бы выбрал unsigned mediumint (16,777,215 — 1 записей)- его всегда можно будет расширить до int, а затем и bigint (если, конечно, это потребуется).

Хорошая ли идея использовать в качестве ID (первичного ключа) мд5 хеш?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт