Какие СУБД подходят для выборок записей, которые зависят друг от друга?

Question

koliane @koliane

Какие СУБД подходят для выборок записей, которые зависят друг от друга?

Если, для примера брать реляционную базу, то в таблице необходимо находить записи которые зависят друг от друга определенным образом. Комбинации из нескольких записей могут зависеть от других комбинаций из нескольких записей.
Записей может быть миллионы.

В реляционной СУБД это можно реализовать, используя определенное кол-во join. Но так как записей может быть миллионы, то после первого join, СУБД будет иметь дело уже с триллионом записей и т.д. И запрос в этом случае может обрабатываться неограниченно долго (уже проверено).

Возможно есть субд, предназначенные как раз для таких задач?
Пока смотрю на графовые СУБД (neo4j), но еще не разобрался, подойдет она или нет.
Посоветуйте, в каком направлении хотя бы двигаться.

Вопрос задан более трёх лет назад
571 просмотр

9 комментариев

Подписаться 6 Сложный 9 комментариев

sim3x @sim3x

Какие операции требуются проводить над множеством?

Написано более трёх лет назад
Евгений Вольф @Wolfnsex

Мне кажется, Вам нужно посмотреть этот список. Так как БД такого типа не очень популярные, думаю, Вам лучше спросить это на каком-то очень узкоспециализированном форуме или как минимум точнее описать суть проблемы. JOIN на миллиард записей и неограниченно долгое его выполнение - возможно, это проблема не реляционных БД, изначально, а подхода к их использованию... Никто обычно не получает данные в количестве "миллиард записей" за 1 заход.

Написано более трёх лет назад
Rsa97 @Rsa97

Добавлю, если JOIN проводить сразу по нужным условиям, то может оказаться, что после первого же JOIN'а у вас стало не триллион, а всего тысяча записей.

Написано более трёх лет назад
Antonio Solo @solotony

при такой постановке вопроса я бы предположил непонимание принципов построения реляционных БД и неумение строить запросы.

Написано более трёх лет назад
PrAw @remzalp

select * from a, b
НЕПРАВИЛЬНЫЙ ПОДХОД. Это называется Декартово произведение. Используется примерно никогда.

select * from a join b ON a.code = b.id
ПРАВИЛЬНЫЙ подход. Операция соединения.
https://habrahabr.ru/post/145381/

Написано более трёх лет назад
koliane @koliane Автор вопроса

PrAw, как раз изначально мне нужно получить декартово произведение, а потом уже анализировать полученные данные. Начальный запрос следующий select * from a join a as a2 ON a.id < a2.id.
В задаче необходимо сначала получить разницу между значением записей. Т.е. для каждой записи получить разницу со всеми остальными записями. И в дальнейшем эти разницы анализировать.
Начальных записей, которые анализируются, может быть миллион, а после первого join их будет чуть меньше триллиона.

Написано более трёх лет назад
PrAw @remzalp
koliane, На этот случай могут помочь либо хранимые процедуры либо вложенные подзапросы, всё зависит от реальной задачи.

Ну и в случае миллиардов записей в результате переходим на подходы Big Data. Как вариант можно реляционную БД использовать как тупую хранилку ключ-значение, а всю магию делать на клиенте.
сильно условный псевдокод на несуществующем языке программирования:
for var_id in (select * from a): results = (select * from a where id < $var_id) for r in results: ....
Написано более трёх лет назад
koliane @koliane Автор вопроса

PrAw, в этом случае нужно будет либо брать всю выборку в память, что невозможно, либо делать несколько более мелких запросов в цикле и уже по отдельности анализировать, но более мелкие выборки также нужно будет анализировать друг с другом, а значит хранить где-то в памяти. Извернуться конечно можно, но скрипт будет отрабатывать слишком долго, поэтому и хочу решить задачу, используя СУБД.

Написано более трёх лет назад
PrAw @remzalp

koliane, проблема в том, что СУБД тоже надо где-то хранить промежуточные данные.
Скорей всего Вы решаете какую-то задачу оптимизации, а это не всегда требует полного перебора.
И с использованием некоторых оптимизаций можно как минимум сократить объемы памяти.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 2 подписчика
- вчера
- 183 просмотра
1

ответ
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 302 просмотра
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 288 просмотров
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 170 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 162 просмотра
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 118 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 304 просмотра
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 241 просмотр
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 284 просмотра
4

ответа
Показать ещё Загружается…

Какие операции требуются проводить над множеством?
Мне кажется, Вам нужно посмотреть этот список. Так как БД такого типа не очень популярные, думаю, Вам лучше спросить это на каком-то очень узкоспециализированном форуме или как минимум точнее описать суть проблемы. JOIN на миллиард записей и неограниченно долгое его выполнение - возможно, это проблема не реляционных БД, изначально, а подхода к их использованию... Никто обычно не получает данные в количестве "миллиард записей" за 1 заход.
Добавлю, если JOIN проводить сразу по нужным условиям, то может оказаться, что после первого же JOIN'а у вас стало не триллион, а всего тысяча записей.
при такой постановке вопроса я бы предположил непонимание принципов построения реляционных БД и неумение строить запросы.
select * from a, b
НЕПРАВИЛЬНЫЙ ПОДХОД. Это называется Декартово произведение. Используется примерно никогда.

select * from a join b ON a.code = b.id
ПРАВИЛЬНЫЙ подход. Операция соединения.
https://habrahabr.ru/post/145381/
PrAw, как раз изначально мне нужно получить декартово произведение, а потом уже анализировать полученные данные. Начальный запрос следующий select * from a join a as a2 ON a.id < a2.id.
В задаче необходимо сначала получить разницу между значением записей. Т.е. для каждой записи получить разницу со всеми остальными записями. И в дальнейшем эти разницы анализировать.
Начальных записей, которые анализируются, может быть миллион, а после первого join их будет чуть меньше триллиона.
koliane, На этот случай могут помочь либо хранимые процедуры либо вложенные подзапросы, всё зависит от реальной задачи.

Ну и в случае миллиардов записей в результате переходим на подходы Big Data. Как вариант можно реляционную БД использовать как тупую хранилку ключ-значение, а всю магию делать на клиенте.
сильно условный псевдокод на несуществующем языке программирования:
for var_id in (select * from a): results = (select * from a where id < $var_id) for r in results: ....
PrAw, в этом случае нужно будет либо брать всю выборку в память, что невозможно, либо делать несколько более мелких запросов в цикле и уже по отдельности анализировать, но более мелкие выборки также нужно будет анализировать друг с другом, а значит хранить где-то в памяти. Извернуться конечно можно, но скрипт будет отрабатывать слишком долго, поэтому и хочу решить задачу, используя СУБД.
koliane, проблема в том, что СУБД тоже надо где-то хранить промежуточные данные.
Скорей всего Вы решаете какую-то задачу оптимизации, а это не всегда требует полного перебора.
И с использованием некоторых оптимизаций можно как минимум сократить объемы памяти.

Answer 1 · 2018-01-16 12:55:59

>>И запрос в этом случае может обрабатываться неограниченно долго (уже проверено).

Криво логика значит построена. Если зависимости уж слишком сложные - тогда писать логику самому на NoSQL базе. Они по ключу тебе быстро будут выбирать нужные данные.

Answer 2 · 2018-01-16 13:00:39

приведите пример из вашего тяжелого случая

Комбинации из нескольких записей могут зависеть от других комбинаций из нескольких записей.

.
В реляционных СУБД необходимо в первую очередь построить схему данных - для разных наборов данных, описывающих разные сущности, построить разные таблици, описать связи между ними.
Почитайте про нормализацию данных, достаточно про первые 3 нормальные формы.

Answer 3 · 2018-01-16 13:04:34

Вы собираетесь решать задачи на графах?!
Тогда вам просто надо выбрать одно из нескольких представлений графов
(Хранить можно и РСУБД)
Но все равно в пределе у вас может оказаться NP-полная задача.
Тыды ой, ничто не поможет. :-)

Какие СУБД подходят для выборок записей, которые зависят друг от друга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт