Каким образом можно гарантировать уникальность хэш-строки для определенного файла?

Question

happycodecom @happycodecom

Хеширование

Каким образом можно гарантировать уникальность хэш-строки для определенного файла?

При разработке сервиса файл-хостинга встал вопрос быстрого поиска дубликатов.
У каждого алгоритма хэширования есть вероятность коллизий из-за ограничения длинны генерируемой строки.
Сравнивать содержимое файлов затратно при больших объемах, да и разные файлы могут быть с одинаковыми sha1/md5 суммами.

Может генерировать длинную строку из двух/трех и более алгоритмов?

Как лучше?

Вопрос задан более трёх лет назад
6580 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Инженер по тестированию

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

3 комментария

Владимир Мартьянов @vilgeforce

Для MD5 коллизии ищутся за минуты. Длину хранить, я полагаю, не надо, она подмешивается к хэшу при финализации.

Написано более трёх лет назад
MiiNiPaa @MiiNiPaa

Я и не предлагал использовать MD5. Хотя даже в этом случае пользы от нахождения коллизий злоумышленнику может быть только одна: не дать в будущем загрузить какой-то конкретный файл.

Длину я использовал для предварительной проверки файла на нахождение в базе, ещё до его фактической загрузки и вычисления хэша. В общем случае лучше это место потратить на более длинный хэш.

Написано более трёх лет назад
happycodecom @happycodecom Автор вопроса

Спасибо за ответ. Думаю остановлюсь на использовании длинного хэша из md5 и SHA1, как и планировал.

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Telegram

+3 ещё

Средний
Как настроить авторизацию в Telegram Mini Apps?
- 3 подписчика
- 08 июн.
- 539 просмотров
0

ответов
Хеширование

+2 ещё

Простой
Почему aes-gcm юзается вместе с sha?
- 1 подписчик
- 29 мая
- 99 просмотров
0

ответов
Хеширование

Средний
Какой хэш использовать в качестве уникального ключа для текстов?
- 1 подписчик
- более года назад
- 202 просмотра
2

ответа
PHP

+1 ещё

Простой
Как хешировать email при регистрации пользователя и проверять при восстановлении?
- 1 подписчик
- более года назад
- 342 просмотра
0

ответов
Базы данных

+1 ещё

Простой
Какой механизм лучше использовать для хранения и получения hashsum записией?
- 1 подписчик
- более года назад
- 110 просмотров
2

ответа
Хеширование

Средний
Как называется этот алгоритм разбиения хэша?
- 1 подписчик
- более года назад
- 170 просмотров
1

ответ
Хеширование

Простой
Как работает хэшиоование sha-3?
- 1 подписчик
- более года назад
- 154 просмотра
1

ответ
Хеширование

Простой
Как получить хэш md5(unix) из командной строки?
- 1 подписчик
- более года назад
- 275 просмотров
3

ответа
SSH

+1 ещё

Простой
Как запретить клиенту использовать конкретный алгоритм HMAC при sftp подключении?
- 2 подписчика
- более года назад
- 464 просмотра
0

ответов
Программирование

+2 ещё

Простой
Хештаблицы, можно ли мешать open addressing и chaining(решено)?
- 2 подписчика
- более года назад
- 142 просмотра
1

ответ
Показать ещё Загружается…

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Frontend-разработчик

Braind • Орёл

До 150 000 ₽

Answer 1 · 2015-03-04 21:09:26

У каждого алгоритма хэширования есть вероятность коллизий из-за ограничения длинны генерируемой строки.

Это неотъемлемая часть собственно хеширования. Если нужно чтобы дубликаты были невозможны в принципе, длина хэша должна быть не меньше длины исходного файла.

Шансы случайной коллизии настолько невероятны, что об них можно и не думать.

На практике достаточно хранить достаточно длинный хэш (Даже SHA1 пойдёт) плюс, возможно, длину файла для предварительной проверки на уникальность (до хеширования)

Answer 2 · 2015-03-04 21:05:53

Владимир Мартьянов @vilgeforce

Раздолбай и программист

SHA1 достаточно уникальна. Коллизии у MD5 ищутся за минуты, про SHA1 и тем более SHA512 такого не слышал.

Ответ написан более трёх лет назад

2 комментария

Каким образом можно гарантировать уникальность хэш-строки для определенного файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт