В какой БД лучше хранить данные связей такого вида entity_id + [another_entity_id, ..., another_entity_id]?

Question

konchober @konchober

В какой БД лучше хранить данные связей такого вида entity_id + [another_entity_id, ..., another_entity_id]?

Привет, сейчас использую таблицу для связи сущностей на MySQL MyIsam.
Структура наипростейшая: entity_id, another_entity_id
+ 2 индекса: entity_id + another_entity_id (уникальный) и another_entity_id + entity_id

К таблице используются запросы:
1) Выбрать все another_entity_id по entity_id = X
2) Выбрать все entity_id по another_entity_id = Y
3) COUNT по вышеприведённым выборкам
4) Возможно какие-то аналитические запросы по пересечению айдишников

На каждый entity_id может приходиться до 10млн another_entity_id.

В принципе запросы отрабатывают быстро, но при 300млн записях сами данные занимают 4гб + индексы (!!!) 11 гб.

Стоит задача сократить занимаемое место при сохранении или даже с увеличением производительности.

Первым пришло в голову использовать документно-ориентированные БД.
1) MongoDB отвалился сразу, т.к. имеет физическое ограничение на размер одного BSON документа в 16мб, что хватает только на документ вида: entity_id + [массив 1 млн another_entity_id]. Производительность и размер данных в результате такой подставы оценить не удалось.
2) PostgreSQL и тип jsonb может хранить документы любого размера, также имеет возможность поиска по документу, GIN индексы занимающие гораздо меньше места, но производительность поиска по jsonb отвратительно медленная. Видимо нужно ждать релиза индексов типа VODKA. А так же очень медленные инсёрты. Небольшая экономия жёсткого диска.
2.1) PostgreSQL и массив интов (integer[]) по производительности сопоставим с поиском по jsonb, но более быстрые инсёрты.

Пока что получается, что MyIsam уделывает всех по производительности. Что посоветуете, комрады?

Вопрос задан более трёх лет назад
383 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

konchober @konchober Автор вопроса

В том-то и дело, что база уже на SSD, поэтому и хочется чтобы занимала меньше места.

Мускул не умеет использовать индекс entity_id + another_entity_id для запросов вида SELECT entity_id FROM rel WHERE another_entity_id = Y

Написано более трёх лет назад
res2001 @res2001

Они у вас строковые?
Нафиг строки - заведите 2 справочника для entity и another_entity, в каждом справочнике числовой уникальный ID, а вашу таблицу переделайте на использование чисел.

Написано более трёх лет назад
konchober @konchober Автор вопроса

фантазируете, исключительно инты

Написано более трёх лет назад
res2001 @res2001

Ок. Смутило это "another_entity_id = Y"

Написано более трёх лет назад
res2001 @res2001

konchober: "Мускул не умеет использовать индекс entity_id + another_entity_id для запросов" для этого я и посоветовал 2 индекса по отдельности для каждого поля. В итоге вместо 2 индексов по 2 поля, будет 2 индекса по 1 полю. Кластерный индекс места занимает гораздо меньше. Освободите примерно половину пространства, занимаемого сейчас индексами.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 297 просмотров
3

ответа
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 102 просмотра
1

ответ
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 286 просмотров
3

ответа
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 309 просмотров
2

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 168 просмотров
2

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 977 просмотров
5

ответов
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 245 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 214 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2016-03-10 17:22:17

Возьмите PostGRE, а структуру оставьте такой же.
С индексами у вас что-то напутано - по сути 2 одинаковых индекса, думаете СУБД сама не догадается поменять местами поля при необходимости?
Я бы сделал уникальный кластерный индекс по entity_id + another_entity_id, и отдельные дополнительные индексы по каждому полю.
Попробуйте для начала на MySQL с индексами разобраться - место освободится. Может на этом и остановитесь.
Для увеличения производительности - переносите базу на SSD носитель.

В какой БД лучше хранить данные связей такого вида entity_id + [another_entity_id, ..., another_entity_id]?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт