Какой механизм лучше использовать для хранения и получения hashsum записией?

Question

xiiicool @xiiicool

Какой механизм лучше использовать для хранения и получения hashsum записией?

Мне перед записью в базу нужно проверить уникальность данных, есть мысль хранить hash где то на стороне и проверять перед записью, какой вариант лучше подойдёт для этой задачи, hashей за год будет примерно 4 320 000 000
Если в файловой система в виде файла то такую утилиту лучше использовать в nodejs
Redis врятли подходит
Если базу данных то какой лучше вариант

Вопрос задан более года назад
108 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

Виктор @vhood

перед записью в базу нужно проверить уникальность данных
а стандартные констрейнты БД чем не подходят?

Написано более года назад
xiiicool @xiiicool Автор вопроса

Виктор, При записи данных в базу пачками мне точно нужно знать что в этой пачке все уникальные данные, игнорировать ошибки дубликатов или делать апдейт их не подходит вариант

Написано более года назад
Василий Банников @vabka

xiiicool, ну обычные констрейнты в базе так и работают - вставляешь пачкой и каждая запись проверяется на уникальность.

Написано более года назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 240 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 414 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 188 просмотров
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 87 просмотров
1

ответ
Telegram

+3 ещё

Средний
Как настроить авторизацию в Telegram Mini Apps?
- 3 подписчика
- 08 июн.
- 520 просмотров
0

ответов
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 165 просмотров
2

ответа
Хеширование

+2 ещё

Простой
Почему aes-gcm юзается вместе с sha?
- 1 подписчик
- 29 мая
- 79 просмотров
0

ответов
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4839 просмотров
8

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 402 просмотра
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 212 просмотров
2

ответа
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Администратор баз данных (DBA) (MariadDB Galera, ClickHouse Cluster)

Безлимит

от 300 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

перед записью в базу нужно проверить уникальность данных
а стандартные констрейнты БД чем не подходят?
Виктор, При записи данных в базу пачками мне точно нужно знать что в этой пачке все уникальные данные, игнорировать ошибки дубликатов или делать апдейт их не подходит вариант
xiiicool, ну обычные констрейнты в базе так и работают - вставляешь пачкой и каждая запись проверяется на уникальность.

Answer 1 · 2024-05-08 13:38:13

Мне перед записью в базу нужно проверить уникальность данных, есть мысль хранить hash где то на стороне и проверять перед записью, какой вариант лучше подойдёт для этой задачи, hashей за год будет примерно 4 320 000 000

K/V хранилище должно подойти, если нужно только проверять уникальность по хэшу. Для хранения хэшей SHA-1 потребуется минимум 86 ГБ места, без учета накладных расходов хранилища.
В зависимости от уровня нагрузки могут понадобиться более серьезные K/V хранилища. Вполне возможно, что облачные сервисы.

Answer 2 · 2024-06-18 12:26:10

Можно использовать фильтр Блума. Тогда для твоего числа ключей (4 320 000 000) надо
будет держать структуру размером 4.8 Гб https://hur.st/bloomfilter/?n=4320000000&p=0.01&m=&k=

Но фильтр отбивает не 100% ответов а просто некую большую часть (99% в данной формуле). И поэтому надо чтобы
в базе всегда стоял unique constraint. Да и вообще констрейнт - это часть культуры проектирования
баз. Поэтому это даже не должно обсуждаться. База без гарантий уникальности - это сильно
подпорченная информация. Информация низкого качества.

Фильтры Блума используются в Cassandra, Hadoop, Databricks, Redis. Обычно не как основные а как
вспомогательные структуры. Поэтому такие решения - вполне себе production-ready.

Какой механизм лучше использовать для хранения и получения hashsum записией?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт