Как правильно хранить/выбирать данные в PostgreSQL?

Question

Евгений Вольф @Wolfnsex

Если не хочешь быть первым - не вставай в очередь!

PostgreSQL

Как правильно хранить/выбирать данные в PostgreSQL?

Доброго времени суток уважаемые!

В продолжение моих предыдущих вопросов,
[PostgreSQL] Как привести строки в INT и другие типы данных?
Как привести массив чисел из поля VARCHAR к типу INTEGER в PostgreSQL?

Суть проблемы: есть некоторый набор данных (от 1 до 1000+) записей, строго привязанных к другой записи (простая связь, один ко многим). В виду того, что эти данные имеют смешанный тип (могут быть как строками, со всеми вытекающими) так и числами. Данные храняться в формате VARCHAR, в виду выше описанных причин.

При этом, работать с этими данными нам нужно в зависимости от ситуации и как со строками и как с числами. То есть, если условие поиска задано как "искать по строкам" - мы ищем по всему сразу и по строкам и по числам, буд-то это всё строки (формально оно так и есть). Если условие стоит по поиску диапазонов, например:
... WHERE n >= 10 AND n <= 100;

то нам нужно выбирать нужно только числа и соответственно сравнивать их.

Как я вижу решения проблемы:
Вариант 1 Мы храним строчные данные в таблице для строк, числовые данные в таблице для чисел (и судя по всему, для дробных придётся завести персональную таблицу), и в зависимости от условий поиска делаем выборку из двух таблиц. Тут есть мелкие проблемы:
а) Данные раздроблены
б) Система будет работать так, что определяя формат входных данных, будет записывать их в нужную таблицу, при этом есть некоторая вероятность, ошибочного определения, т.к. не факт что "333555" - это сумма чего либо, а не номер телефона или что-то иное, отличное от суммы.

Вариант 2.1 Мы храним все данные в одной таблице, в формате VARCHAR, и по косвенному признаку делаем отделяем числа, например так:

SELECT field1::integer FROM table1 WHERE field1 ~ E'^\\d+$' AND field1::integer > 3;

в этом варианте меня смущает регурялка... Она хоть и очень маленькая, но всё же регулярка.

Вариант 2.2 Мы добавляем ещё одно поле-флаг (число -> true/false), которое будет определять, что храниться в этой строке, число или строка. Соответственно, поиск по строкам работает в штатном режиме, а поиск по числам - работает уже не в формате регулярного выражения, а основываясь на флагах.

В этом варианте мне не нравится дополнительная сущность и дополнительная логика, но, мы уже избавились от регулярки (хоть и очень маленькой).

Подскажите пожалуйста, какой из вариантов лучше, насколько лучше и почему? Какие объективные плюсы и минусы у каждого подхода могут быть? Насколько медленно примитивные регулярки будут тормозить работу системы и/или насколько они лучше/хуже вариантов с дополнительным полем?

P.S. Я понимаю, что можно "взять и проверить", но будучи не имея представлений о том, как и почему БД будет себя вести в зависимости от ситуаций и не имея возможности моделировать такие ситуации на разном железе с разным набором (объёмом) данных - хотелось бы услышать мнение человека, который понимает как оно работает логически.

Вопрос задан более трёх лет назад
832 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Hi-TECH Academy

Администрирование PostgreSQL 16. Базовый курс

3 дня

Далее
OTUS

PostgreSQL. Advanced

4 месяца

Далее
Учебный центр IBS

QPT PostgreSQL 16. Оптимизация запросов

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 3

10 комментариев

Евгений Вольф @Wolfnsex Автор вопроса

Набор полей - это динамические атрибуты объектов, там потенциально может быть что угодно, от среднеарифметической доходов и количества лап до фамилии прадедушки в 8-м поколении. Спрогнозировать "что будет завтра и в каком количестве?" к сожалению, невозможно.

Объём данных - примерно 1.5 млн. записей (уже/сейчас), к каждой из которых привязано в среднем 20 значений (т.е. будет 30млн. записей значений), из них на данный момент: 70% - целые числа, 20% строки, 10% дробные (примерно).

Написано более трёх лет назад
sim3x @sim3x

Евгений Вольф:
В какой области знаний работает твое приложение?

Пока размер БД не больше памяти - колличество записей не имеет значения

Написано более трёх лет назад
Евгений Вольф @Wolfnsex Автор вопроса

Памяти 8Гб, 2xSSD, на сервере FreeBSD + Posrgres. Касательно объёмов БД пока сказать не могу, доступа к серверу с того места где я сейчас, но пока всё работает в пределах нормы. Запросы в пределах 1сек. выполняются.

Не знаю как обозначить область знаний и как это влияет на формат хранения - но это база технических изделий, со всеми возможными параметрами, от авторов чертежа до объектов где эти изделия могут применяться. Хранятся разумеется, только важные параметры (которые целесообразно/нужно хранить).

Касательно объёма памяти и размеров БД. Пока всё работает и меня всё устраивает, но для примера, мы можем предположить что объём БД в 10 раз больше объёма памяти и отталкиваться от этого при расчётах.

Написано более трёх лет назад
sim3x @sim3x

Евгений Вольф:
0. Отталкиваться нужно от RAM = обьему БД

1. Пока скорость ответов устраивает - используем 3НФ
Никаких жсонов, hstore
EAV - с полем указания типа елемента
+ хорошая орм на бекенде

Написано более трёх лет назад
Александр Шелеметьев @zoroda

sim3x: Не соглашусь насчёт "никаких жсонов". В PostgreSQL для реализации EAV очень удобен тип JSONB, благо он отлично индексируется. Как-то тестировал у себя варианты решения:
1. с "классическим" EAV в связанных таблицах
2. Поле JSONB в основной таблице.
Вариант 2 был заметно быстрее, если не нужна какая-нибудь хитрая валидация.

Написано более трёх лет назад
sim3x @sim3x

Александр Шелеметьев: те селект с условиями по EAV медленнее, чем такой же селект по жсону?

Написано более трёх лет назад
sim3x @sim3x

coussej.github.io/2016/01/14/Replacing-EAV-with-JS...
dba.stackexchange.com/questions/105533/postgres-9-...
https://www.youtube.com/watch?v=4SaBDf3EliU
https://www.youtube.com/watch?v=ln2WUAH0-LA

Написано более трёх лет назад
Александр Шелеметьев @zoroda

sim3x: Спасибо за ссылки.
Смотрю на coussej.github.io/2016/01/14/Replacing-EAV-with-JS... в абзац, где автор сравнивает скорость SELECT'а. Мне как раз критична была именно она.
--- Цитирую: ---
That’s 15000x faster then EAV

Написано более трёх лет назад
sim3x @sim3x

Александр Шелеметьев: без индексов

Написано более трёх лет назад
Александр Шелеметьев @zoroda

sim3x: Посмотри внимательно на график coussej.github.io/img/2016/0114_ReplacingEAVwithJS...
Последняя полоска крапового цвета - JSONB с оператором @> и индексами. Её почти не видно: "it had a huge effect on the timing: only 0.153ms!"
В конце концов, проверь сам на примерах из статьи. Я проверял на своих данных. И у меня получилось, что JSONB значительно быстрее EAV.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Почему не рабоатет npx prisma generate?
- 1 подписчик
- 02 дек.
- 213 просмотров
2

ответа
Windows

+1 ещё

Средний
Работа PostgreSQL на процессорах с гетерогенной архитектурой под Windows?
- 2 подписчика
- 29 нояб.
- 432 просмотра
4

ответа
Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 359 просмотров
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 248 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 229 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 264 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 115 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 233 просмотра
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 156 просмотров
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 145 просмотров
1

ответ
Показать ещё Загружается…

DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

Golang Developer

SMALL

от 280 000 до 350 000 ₽

Golang Developer

SMALL

До 370 000 ₽

Answer 1 · 2016-11-28 14:26:06

Третья_нормальная_форма

И тк ты не знаешь какой набор полей у тебя в действительности есть
не знаешь какие запросы у тебя превалируют
не знаешь набор типов полей
...
непонятно, что означает "лучше", "быстро" и тд

Answer 2 · 2016-11-29 03:07:00

Мне кажется, что все проблемы от того, что вы храните совершенно разные сущности в одной колонке. До тех пор, пока вы их не разложите по разным местам, вы будете страдать. И даже регулярки/флаги/попытки сохранить числа отдельно от строк проблему не решат на 100% - вы сами привели пример, когда не ясно, сумма лежит в строке или телефон. У вас что-то не так в самой схеме хранения.... Предметную область знаете только вы, так что вам решать, что и где)
Если это динамические атрибуты, то возможно стоит посмотреть в сторону jsonb, залитого gin. Но нужно детальнее понять, какая аналитика будет над этими полями и почему важны именно числа.

Answer 3 · 2016-12-01 07:03:53

Присоединюсь к Денис Смирнов. В вашем случае возможно лучшим решением будет JSONB. Из минусов - денормализация данных. Если нужен контроль ссылочной целостности внутри данных JSONB, то задача сильно усложнится. Её можно решить, например, развешиванием триггеров с функциями контроля.
Если же этим контролем можно пренебречь, то рекомендую присмотреться к JSONB.

Как правильно хранить/выбирать данные в PostgreSQL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт