Какой механизм лучше использовать для хранения и получения hashsum записией?

Question

xiiicool @xiiicool

Какой механизм лучше использовать для хранения и получения hashsum записией?

Мне перед записью в базу нужно проверить уникальность данных, есть мысль хранить hash где то на стороне и проверять перед записью, какой вариант лучше подойдёт для этой задачи, hashей за год будет примерно 4 320 000 000
Если в файловой система в виде файла то такую утилиту лучше использовать в nodejs
Redis врятли подходит
Если базу данных то какой лучше вариант

Вопрос задан более двух лет назад
117 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

Виктор @vhood

перед записью в базу нужно проверить уникальность данных
а стандартные констрейнты БД чем не подходят?

Написано более двух лет назад
xiiicool @xiiicool Автор вопроса

Виктор, При записи данных в базу пачками мне точно нужно знать что в этой пачке все уникальные данные, игнорировать ошибки дубликатов или делать апдейт их не подходит вариант

Написано более двух лет назад
Василий Банников @vabka

xiiicool, ну обычные констрейнты в базе так и работают - вставляешь пачкой и каждая запись проверяется на уникальность.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 309 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 297 просмотров
3

ответа
Хеширование

Простой
Какие есть совместимые алгоритмы хеширования между C# и Java?
- 1 подписчик
- 11 мар.
- 162 просмотра
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 173 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 170 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 120 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 307 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 244 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 251 просмотр
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 285 просмотров
4

ответа
Показать ещё Загружается…

перед записью в базу нужно проверить уникальность данных
а стандартные констрейнты БД чем не подходят?
Виктор, При записи данных в базу пачками мне точно нужно знать что в этой пачке все уникальные данные, игнорировать ошибки дубликатов или делать апдейт их не подходит вариант
xiiicool, ну обычные констрейнты в базе так и работают - вставляешь пачкой и каждая запись проверяется на уникальность.

Answer 1 · 2024-05-08 13:38:13

Мне перед записью в базу нужно проверить уникальность данных, есть мысль хранить hash где то на стороне и проверять перед записью, какой вариант лучше подойдёт для этой задачи, hashей за год будет примерно 4 320 000 000

K/V хранилище должно подойти, если нужно только проверять уникальность по хэшу. Для хранения хэшей SHA-1 потребуется минимум 86 ГБ места, без учета накладных расходов хранилища.
В зависимости от уровня нагрузки могут понадобиться более серьезные K/V хранилища. Вполне возможно, что облачные сервисы.

Answer 2 · 2024-06-18 12:26:10

Можно использовать фильтр Блума. Тогда для твоего числа ключей (4 320 000 000) надо
будет держать структуру размером 4.8 Гб https://hur.st/bloomfilter/?n=4320000000&p=0.01&m=&k=

Но фильтр отбивает не 100% ответов а просто некую большую часть (99% в данной формуле). И поэтому надо чтобы
в базе всегда стоял unique constraint. Да и вообще констрейнт - это часть культуры проектирования
баз. Поэтому это даже не должно обсуждаться. База без гарантий уникальности - это сильно
подпорченная информация. Информация низкого качества.

Фильтры Блума используются в Cassandra, Hadoop, Databricks, Redis. Обычно не как основные а как
вспомогательные структуры. Поэтому такие решения - вполне себе production-ready.

Какой механизм лучше использовать для хранения и получения hashsum записией?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт