Где хранить бесконечность записей (111 * 10^29)?

Question

Alex Wells @Alex_Wells

PHP/Kotlin

SQL
NoSQL

Где хранить бесконечность записей (111 * 10^29)?

Здравствуйте. Нужно хранить записи в виде key => value. Кол-во записей - 111 * 10^29 (судя по моему алгоритму). Ключ - число либо string длинной до 35 символов, value - string длинною до 60 символов. Вопрос: где можно хранить такую огромную кучу данных? Время на поиск по этой базе - 20-25 секунд. Понимаю, что обьемы данных огромные, по-этому можно хранить базу в ОЗУ (сколько это сожрет памяти на разных языках?), возможно ли?

Заранее спасибо.

Вопрос задан более трёх лет назад
1658 просмотров

Комментировать

Подписаться 9 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

SQL для разработки

4 месяца

Далее
Академия Eduson

SQL-разработчик: тариф Базовый

3 месяца

Далее
Stepik

SQL с нуля до PRO

2 недели

Далее

Пригласить эксперта

Ответы на вопрос 7

12 комментариев

Alex Wells @Alex_Wells Автор вопроса

А 95 откуда?

Написано более трёх лет назад
Rsa97 @Rsa97

Alex Wells: 35+60

Написано более трёх лет назад
Алексей Черемисин @leahch

Alex Wells: 95 байт = 35 символов + 60 символов

Написано более трёх лет назад
Alex Wells @Alex_Wells Автор вопроса

Окей, а если уточнить? Возможность коллизии допускается при использовании SHA-224 в value? Сколько значений можно будет пропустить?

Написано более трёх лет назад
Алексей Черемисин @leahch

Интересно, что за данные такие? Это же чтобы их заполнить понадобится 39861173208808608 лет при СРЕДНЕЙ скорости записи 800МБ/с
((95*111*10**29)/(800*1024*1024))/(60*60*24*365)

Написано более трёх лет назад
Rsa97 @Rsa97

Alex Wells: Возможность коллизии в SHA есть всегда, это хэш.

Написано более трёх лет назад
Alex Wells @Alex_Wells Автор вопроса

Алексей Черемисин: Если буду иметь базу хэшей, то смогу зарабатывать деньги в геометрической прогрессии)

Написано более трёх лет назад
Alex Wells @Alex_Wells Автор вопроса

Хмм, сколько понадобится времени что-бы сгенерировать базу чисел размером 99 * 10^29 столбиков, к примеру, используя мощный выделенный сервер и amazon dynamodb?

Написано более трёх лет назад
Алексей Черемисин @leahch

Alex Wells: Ну, ну! Успехов! А что будете делать с 2048 кешами? А с 4096? Это атомов в видимой части вселенной не хватит для хранения всех значений кешей, надеюсь Вы в курсе...

Написано более трёх лет назад
D' @Denormalization

Вы "придумали" rainbow таблицу, и решили ее реализовать? Я правильно понимаю?

Написано более трёх лет назад
Alex Wells @Alex_Wells Автор вопроса

D' Normalization: Что я "придумал"? И что такое rainbow таблица?)

Написано более трёх лет назад
D' @Denormalization

Alex Wells: вот именно. Почитайте про rainbow табилцы, похоже вы придумали как раз ее.

Написано более трёх лет назад

2 комментария

Комментировать

2 комментария

8 комментариев

6 комментариев

Alex Wells @Alex_Wells Автор вопроса

Спасибо за такой полный ответ, но я посчитал, и у меня 99 * 10^29 комбинаций. Это числа от 0.01 * 10^-28 до 1. Даже если взять за основу факт того, что не обезательно нужно будет найти комбинацию (надеятся на то, что повезет на какое-то определенное число в начале) то максимум, что я могу выжать - 10 нулей. То-есть 20!! нужно угадать и, после этого, надеятся, что мне повезет.

Собственно сайт просто хэширует выигрышное число и показывает, типа честная игра. Если рассекретить хэш - можно выигрывать 24/7 и забрать сотню тысяч баксов за денек)

Написано более трёх лет назад
Voland69 @Voland69

Alex Wells: Алгоритм хэша известен? Готовых rainbow tables не искали для него?

Написано более трёх лет назад
Alex Wells @Alex_Wells Автор вопроса

Voland69: Да обычный SHA-224, но там таблицы не подойдут обычные, ибо это таблица чисел вида 0.01 и тут еще 28 нулей, и так аж до единицы, взломать это тупо невозможно.

Написано более трёх лет назад
Voland69 @Voland69

Alex Wells: понял вас. А как насчет брута? будет долго, но генерация таблицы еще больше (неодходимо пройти весь диапазон значений, а не до выигрыша + накладные расходы на хранение). Не оценивали, сколько ваш алгоритм затратит на генерацию (111 * 10^29) записей?

Написано более трёх лет назад
Alex Wells @Alex_Wells Автор вопроса

Voland69: Во-первых, у меня ограничение в 35 секунд. Во-вторых, оценивал. Вышло 3.16887646 × 10^14 года, и это при скорости в 10 миллионов!! хэшей в секунду. То-есть нужна скорость в ~10^24 хэшей в секунду, что-бы уложится в 35 секунд)

Написано более трёх лет назад
Voland69 @Voland69

Alex Wells: По-моему, вы хотите невозможного. Даже поиском по (111 * 10^29) записей вы в 35 секунд не уложитесь, имхо.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 204 просмотра
1

ответ
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 184 просмотра
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 224 просмотра
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 253 просмотра
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 327 просмотров
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 104 просмотра
0

ответов
SQL

+1 ещё

Простой
Как объединить 2 таблицы обращаясь к одному и тому же полю 2 раза?
- 1 подписчик
- 08 сент.
- 211 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 221 просмотр
1

ответ
SQL

+1 ещё

Средний
Как правильно написать запрос в SQL с NOT IN, NOT EXISTS или как-то иначе?
- 1 подписчик
- 28 авг.
- 191 просмотр
0

ответов
SQL

+1 ещё

Простой
Проверка связывания таблиц, как проверить?
- 2 подписчика
- 20 авг.
- 321 просмотр
0

ответов
Показать ещё Загружается…

Специалист технической поддержки Oracle Database и PostgreSQL

Омега • Москва

от 90 000 до 120 000 ₽

Разработчик баз данных

Greenway Global • Новосибирск

от 150 000 ₽

Backend Engineer

Kotify

от 3 000 до 5 000 €

Answer 1 · 2016-04-27 17:22:32

Это что вы такое собрались хранить?
95*111*10²⁹ байт ≈ 10³⁴ байт ≈ 10²² терабайт
Значит покупаете тысячу миллионов миллионов миллионов винчестеров на 10 Tb и получаете своё хранилище.

Answer 2 · 2016-04-27 22:48:56

Dark Hole @abyrkov

JavaScripter

На бесконечном винчестере, разумеется. И как вы такую фигню написали?

Ответ написан более трёх лет назад

2 комментария

Answer 3 · 2016-04-28 00:10:15

ThunderCat @ThunderCat

{PHP, MySql, HTML, JS, CSS} developer

100 000 000 000 000 000 000 000 000 000 000 000 байт...
на флешке не поместится (

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2016-04-27 23:35:26

Хранить такое большое количество данных вы можете продолжать там же, где их генерируете - в алгоритме.
PS. Какой вопрос - такой ответ.

Answer 5 · 2016-04-27 17:14:58

MetaDone @MetaDone

Хорошо сформулированный вопрос - 50% решения

https://aws.amazon.com/ru/documentation/dynamodb/

Ответ написан более трёх лет назад

2 комментария

Answer 6 · 2016-04-27 20:04:31

Scorpi @Scorpi

Дайте угадаю, вы решили узнать каким будет следующее число на дабле.
Успехов xD

Ответ написан более трёх лет назад

8 комментариев

Answer 7 · 2016-04-28 23:49:17

Для начала проверь еще раз свой алгоритм. Скорей всего, у тебя там добрая куча дублей, если не 100%, то какие-то куски точно будут повторяться. Не верю я что все 100% будут какими-то прям очень уникальными.

Первое что ты делаешь - общие куски своей информации выносишь в отдельное поле. Такую структуру как дерево знаешь? Вот этот общий кусок будет у тебя храниться в вершине дерева. Далее, каждая вершина хранит в себе ссылки на нижестоящие узлы с какими-то другими уникальными данными и т.д. В принципе уровней вложенности у тебя может быть бесконечно много.

К вопросу где хранить. Что-то лучше жестких дисков для этого пока еще не придумали. В твоем случае будет разумнее использовать гибридное хранилище SATA + SSD + RAM. Данные, к которым обращение происходит чаще всего, лежат в Redis (т.е. RAM), просто часто используемые - на SSD, что-то редко необходимое - на SATA. Алгоритм подсчета частоты уже сам напиши, определив для своей задачи что такое часто, не очень и редко.

Кто из провайдеров может обеспечить этим - на digitalOcean есть тарифы с гибридными винтам SATA + SSD, присмотрись к ним. Советую также глянуть в сторону docker, в твоем случае, думаю, нужно будет 10+ машин для хранения, а эта штука позволит тебе управлять их конфигурацией проще.

По поводу времени на извлечение, поиск и т.д. - гугли на тему "хранение деревьев", "поиск в дереве" и т.д. Постарайся уйти от полных графов, постарайся уйти даже от циклов, даже скажу больше, НЕ ДЕЛАЙ полный граф или цикл в графе на таком объеме, ты выстрелишь себе в ногу просто.

Где хранить бесконечность записей (111 * 10^29)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт