Где лучше всего хранить большое количество цифровых записей для последующего анализа?

Question

xSkyFoXx @xSkyFoXx

Где лучше всего хранить большое количество цифровых записей для последующего анализа?

Есть много записей (2 млрд.), причем вида «почти_ключ-значение»:

1 — 2
1 — 33
1 — 256
1 — 103214
2 — 2321
123 — 432432
и т.д.

Всего таких пар 2 млрд. Причем в последствии будет построен граф, где первый индекс — это узел, второй — другой узел, с которым связан данный, а также каждую из записей придется сравнивать где-то с 2-5 млн. других таких же записей. Хочется выбрать правильную базу данных для этих целей. Что посоветуете?

Вопрос задан более трёх лет назад
2626 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 314 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 302 просмотра
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 178 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 173 просмотра
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 124 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 313 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 246 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 257 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 289 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент. 2025
- 392 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2011-09-14 20:39:07

Владимир Соколовский @inlanger

Django программист

По-идее с таким объемом и с такой структурой данных должна нормально справиться mongodb.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2011-09-14 19:34:18

Вопрос слегка пространный. не понятно что вы потом будете делать с этими записями?
Возможно по крайнем мере 4 решения. Их выбор зависит от того, что вы потом с этим будете делать.

1. Обычный SQL. Например, Postgres + партицирование.
2. Посмотреть в сторону NoSQL решений. Поскольку у вас графовые решения, то есть HyperGraphDB, Neo4j
сам я эти БД не использовал, но как возможное решение попробовать стоит.
3. Посмотреть в сторону распределенных решений. Например, apache hadoop.
обработку данных осуществлять при помощи map-reduce технологии.
4. Если нужно будет искать что-нибудь, то можно воспользоваться каким-нибудь поисковым движком, который индексирует локальные файлы и ищет по нему быстро. под рукой ссылок нет, может позже скину ссылки на пару примеров.

Мне хватило 1-ого варианта. БД где-то 30Гб Выборка идет из конкретной секции по условию и так далее…
Знаю людей, которые используют 3-й вариант, тоже не жалуются. У них БД по больше до 64Tб

Answer 3 · 2011-09-15 02:27:42

codecity @codecity

Одна из самых быстрых из всех существующих ключ/значение — BerkleyDB от Oracle. Вам должно хватить.

Ответ написан более трёх лет назад

1 комментарий

Где лучше всего хранить большое количество цифровых записей для последующего анализа?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт