Как в PostgreSQL сделать уникальный идентификатор среди всех таблиц базы (глобально)?

Question

Dimka5 @Dimka5

PostgreSQL

Как в PostgreSQL сделать уникальный идентификатор среди всех таблиц базы (глобально)?

У меня есть n-ое количество таблиц, в каждой из них есть столбец "идентификатор".
Надо, что бы добавляя в любую из этих таблиц запись, значение поля "идентификатор" не повторялось среди других таблиц базы.
Этот идентификатор я присваиваю сам из кода, т.е. это моё значение получившееся по моим правилам (что отличается от этого вопроса).

Конечно я могу сделать в лоб из кода, сгенерировать идентификатор, получить все таблицы, во всех проверить все записи(или просто попробовать вставить запись, а так как поле уникально база сообщит о совпадении, а потом удалить), затем если идентификатор ни с чем не совпал вставить в нужную таблицу. Но это всё костыли.
Могу ли я сделать это средствами PostgreSQL, а не из кода?
Это называется глобальный индекс как тут?
Мне нужны триггеры?
Куда смотреть? Что читать? Где в документации? Есть готовое решение?

ДОПОЛНЕНИЕ: UUID и GUID не подходят (по формату нужны только цифры, должен быть виден порядок без преобразований просто посмотрев на два идентификатора)

ДОПОЛНЕНИЕ 2:SEQUENCE не подходит так как nextval прибавляет 1, а мой идентификатор это время в наносекундах(но это неважно по тому что точность может быть меньше или больше), важно что следующее значене не просто +1, а по результату работы моего алгоритма. setval так же не подходит так как не проверяет на уникальность на уровне всех таблиц, а только на уровне текущей в комбинации с PRIMARY KEY у колонки.

Вопрос задан более трёх лет назад
2522 просмотра

7 комментариев

Подписаться 2 Простой 7 комментариев

Максим Федоров @Maksclub

Чем uuid не подошел?

Написано более трёх лет назад
Dimka5 @Dimka5 Автор вопроса

Ага... вроде понял что это такое. Штука по сути децентрализованная, и он уникален по всему миру можно сказать =), идея понравилась.
Но не подходит по тому что у меня:
1) Из идентификатора мне нужно вытаскивать время он по сути время (кажется у меня получилось точнее чем 100-наносекундный интервал)
2) У меня взглянув на любые два идентификатора видно порядок они последовательны, UUID не последователен у него есть рандомная часть, в общем без преобразований ничего не понятно. Проще говоря визуально он не подходит, у меня только цифры.

Написано более трёх лет назад
Athanor @Athanor

Смотрите, если вам нужен глобально уникальный идентификатор, то концептуально пути 2:
1. Это централизованная сущность, которая считает и хранить все идентификаторы в соответствии с вашими требованиями.
2. Это алгоритм, который всегда генерирует рандомное число.

Если вам важно видеть порядок и видеть наносекунды, то могу предложить какой-то вариант генерации в духе текущий таймстамп с наносекундами и в конце дописать 2-3 рандомные цифры, чтобы если вдруг совпали наносекунды, то все равно была соблюдена уникальность.

А сам уникальный ID можно на уровне postgres генерить с помощью триггеров. Например, вот пример создания триггера и изменения id после вставки записи: https://stackoverflow.com/questions/11125419/creat...
Вам достаточно поменять алгоритм генерации.

Если и такой вариант не подходит, то было бы здорово если бы вы описали более полно что делает ваше приложение и почему предложенные решения не подходят и мы бы могли помочь или перепроектировать какие-то части (если вам не подходят основные способы, то проблема может оказаться в архитектуре), или подсказать решение более точечно.

Написано более трёх лет назад
Dimka5 @Dimka5 Автор вопроса
Вот там про триггеры, процедуры и функции я уже не понял... нужно ещё разбираться.
Но давайте тогда предметно вот захожу я в pgAdmin. Делаю пустую базу, в ней делаю запросы вручную(соблюдая уникальность) с помощью Query Tool.
Этот

-- Создание таблиц CREATE TABLE public."пользователи" ( идентификатор text PRIMARY KEY, псевдоним text ); CREATE TABLE public."посты"( идентификатор text PRIMARY KEY, содержимое text ); CREATE TABLE public."комментарии" ( идентификатор text PRIMARY KEY, текст text );

Потом этот

-- Вставка записей в таблиы INSERT INTO public."пользователи" (идентификатор, псевдоним) VALUES ('63747434088427895404', 'Первый'); INSERT INTO public."пользователи" (идентификатор, псевдоним) VALUES ('63747434222866903423', 'Второй'); INSERT INTO public."посты" (идентификатор, содержимое) VALUES ('63747434481174148512', 'О том как надо'); INSERT INTO public."посты" (идентификатор, содержимое) VALUES ('63747434492297907708', 'О том как не надо'); INSERT INTO public."комментарии" (идентификатор, текст) VALUES ('63747434537581935452', 'Я думаю что решение...'); INSERT INTO public."комментарии" (идентификатор, текст) VALUES ('63747434548356770796', 'Хорошо я пропробую сделать...');

Обратите внимание идентификаторы во всех таблицах не совпадают.
Что нужно? Нужно добавить новую запись в любую из таблиц и что бы среди всех таблиц идентификатор не совпал.
А вот если я захочу добавить запись, например в 'посты' с идентификатором '63747434088427895404' записи из 'пользователи', я хочу что бы выдавалась ошибка

INSERT INTO public."посты" (идентификатор, содержимое) VALUES ('63747434088427895404', 'Нееее так вообще не надо'); -- ОШИБКА: в таблице 'пользователи' уже есть запись с таким идентификатором

Я пока вижу и умею 2 решения
1) создаю отдельную таблицу с идентификаторами, добавляю запись туда а потом беру от туда значение для любой другой таблицы(централизованная сущнось, как вы писали)
2) при вставке я прохожусь SELECT'ами по всем таблицам в базе и пытаюсь найти совпадает ли новый идентификатор с существующими
Эти варианты, как я вижу, гарантируют уникальность среди всех таблиц.
Написано более трёх лет назад
Athanor @Athanor

Спасибо, задача ясна, дам более развёрнутый ответ в течение дня.

А пока можете дать чуть больше контекста и рассказать откуда у такого требования с уникальностью id растут ноги?

Написано более трёх лет назад
Dimka5 @Dimka5 Автор вопроса

Ну если вам так интересно, могу только сказать что это мой собственный проект. Идея в том что такой идентификатор обозначает Сущность, поскольку из него можно вытащить время (оно у меня здесь от 1 янв 0001 года считается кстати), то можно понять когда Сущность создана, а дальше создать хронологическую цепочку. Если к цепочке (а это по сути направленный граф) добавить некоторые другие связи, например такие которые будут значить что вторая Сущность не может существовать без первой, то получится сеть где видно, что, например, нужно делать сначала, а что потом, что бы дойти по графу до некоторой Сущности. Получается что там как бы есть параллельность между "путями" но одновременно всё равно ничего произойти не может. Кроме того если какую то Сущность(по мимо ид неё есть значение) уже создавали то это будет видно, причём не надо будет городить новые связи по тому что они уже в том месте будут. Всё больше ничего не скажу! =)

Написано более трёх лет назад
Athanor @Athanor

Отстаивать свои идеи и позиции - это благо, конечно ) спасибо за объяснение, но вопросов появилось больше, чем ответов. Тем не менее, отредактировал ответ. Надеюсь, в этот раз в точку ) в любом случае, давайте продолжим коммуникацию под ответом, если в этом еще есть необходимость и вы не против.

Написано более трёх лет назад

Решения вопроса 1

2 комментария

Dimka5 @Dimka5 Автор вопроса

Идея интересная но не подходит. Ответил Максим Федоров в комментариях вопроса...

Написано более трёх лет назад
Dimka5 @Dimka5 Автор вопроса

Господи дай вам всего, побольше таких людей миру. И продолжайте нести добро людям. Это шедеврально.
Если честно я думал меня опять пошлют, как это обычно со мной случалось.
А тут аж полное решение и всё понятно. Спасибо!

Про архитектуру и решения вы конечно дело говорите. К сожалению я не профессиональный программист и глаз не намётан, но немного Макконела и практик я в ваших мыслях увидел)

Про text это пример, BIGINT планировал использовать вообще везде и в БД и на сервере(NodeJS) и на клиенте. Про индексирование не знал, спасибо, но там всё равно в оптимизацию углубляться и бенчмарки делать, так что ещё предстоит узнать все тонкости, это отдельная тема...

Наверное я сейчас и пытаюсь обосновать. Вот делал на MongoDB потом подумал, вот сейчас про реляционки не узнаю потом труднее будет, что то там всё про математику да производительность и что для серьёзных проектов.
Понятно что под задачи, но надо же опять сравнивать на практике, а я с БД так то не глубоко знаком, вот начну эмулировать кучу запросов посмотрим как будут вести себя два варианта, там и на возможности оптимизации посмотрю. Попереношу функцию генерации на стороне БД и на стороне приложения тоже сравню.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

PostgreSQL

Простой
Нужен ли первичный ключ в таблицах PostgreSQL?
- 1 подписчик
- вчера
- 129 просмотров
2

ответа
PostgreSQL

+1 ещё

Простой
Как добавить отношения «многие-ко-многим» между таблицами из разных баз данных?
- 1 подписчик
- вчера
- 126 просмотров
4

ответа
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- 17 апр.
- 102 просмотра
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 195 просмотров
3

ответа
PostgreSQL

+2 ещё

Простой
Где искать рекомендуемые настройки SSL-аутентификации для Docker-образа Posgres?
- 1 подписчик
- 17 апр.
- 62 просмотра
3

ответа
PostgreSQL

+1 ещё

Простой
Как поправить язык в SQL Shell (psql)?
- 1 подписчик
- 14 апр.
- 98 просмотров
1

ответ
Python

+1 ещё

Простой
Как оптимизировать запрос?
- 1 подписчик
- 13 апр.
- 146 просмотров
2

ответа
PostgreSQL

Простой
Как взять значение из одной таблицы и прибавить к значению другой таблицы?
- 1 подписчик
- 12 апр.
- 81 просмотр
1

ответ
PostgreSQL

Простой
Psq восстановление бэкапа, что делаю не так?
- 1 подписчик
- 11 апр.
- 84 просмотра
2

ответа
PostgreSQL

+1 ещё

Средний
С чем может быть связана высокая нагрузка на сервер Postgres?
- 2 подписчика
- 11 апр.
- 193 просмотра
1

ответ
Показать ещё Загружается…

Администратор PostgreSQL

Гринатом

До 200 000 ₽

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Установить вебхук на сайт

24 апр. 2024, в 16:19

4000 руб./за проект

Натянуть верстку Опенкарт

24 апр. 2024, в 15:34

20000 руб./за проект

SEO с опытом в контентных проектах (СМИ)

24 апр. 2024, в 15:32

130000 руб./за проект

Ага... вроде понял что это такое. Штука по сути децентрализованная, и он уникален по всему миру можно сказать =), идея понравилась.
Но не подходит по тому что у меня:
1) Из идентификатора мне нужно вытаскивать время он по сути время (кажется у меня получилось точнее чем 100-наносекундный интервал)
2) У меня взглянув на любые два идентификатора видно порядок они последовательны, UUID не последователен у него есть рандомная часть, в общем без преобразований ничего не понятно. Проще говоря визуально он не подходит, у меня только цифры.
Смотрите, если вам нужен глобально уникальный идентификатор, то концептуально пути 2:
1. Это централизованная сущность, которая считает и хранить все идентификаторы в соответствии с вашими требованиями.
2. Это алгоритм, который всегда генерирует рандомное число.

Если вам важно видеть порядок и видеть наносекунды, то могу предложить какой-то вариант генерации в духе текущий таймстамп с наносекундами и в конце дописать 2-3 рандомные цифры, чтобы если вдруг совпали наносекунды, то все равно была соблюдена уникальность.

А сам уникальный ID можно на уровне postgres генерить с помощью триггеров. Например, вот пример создания триггера и изменения id после вставки записи: https://stackoverflow.com/questions/11125419/creat...
Вам достаточно поменять алгоритм генерации.

Если и такой вариант не подходит, то было бы здорово если бы вы описали более полно что делает ваше приложение и почему предложенные решения не подходят и мы бы могли помочь или перепроектировать какие-то части (если вам не подходят основные способы, то проблема может оказаться в архитектуре), или подсказать решение более точечно.
Спасибо, задача ясна, дам более развёрнутый ответ в течение дня.

А пока можете дать чуть больше контекста и рассказать откуда у такого требования с уникальностью id растут ноги?
Ну если вам так интересно, могу только сказать что это мой собственный проект. Идея в том что такой идентификатор обозначает Сущность, поскольку из него можно вытащить время (оно у меня здесь от 1 янв 0001 года считается кстати), то можно понять когда Сущность создана, а дальше создать хронологическую цепочку. Если к цепочке (а это по сути направленный граф) добавить некоторые другие связи, например такие которые будут значить что вторая Сущность не может существовать без первой, то получится сеть где видно, что, например, нужно делать сначала, а что потом, что бы дойти по графу до некоторой Сущности. Получается что там как бы есть параллельность между "путями" но одновременно всё равно ничего произойти не может. Кроме того если какую то Сущность(по мимо ид неё есть значение) уже создавали то это будет видно, причём не надо будет городить новые связи по тому что они уже в том месте будут. Всё больше ничего не скажу! =)
Отстаивать свои идеи и позиции - это благо, конечно ) спасибо за объяснение, но вопросов появилось больше, чем ответов. Тем не менее, отредактировал ответ. Надеюсь, в этот раз в точку ) в любом случае, давайте продолжим коммуникацию под ответом, если в этом еще есть необходимость и вы не против.

Answer 1 · 2020-01-27 19:31:35

Здравствуйте. То, о чем вы говорите, называется GUID, но какого-то унифицированного одного алгоритма его генерации для всех нет. Но в postgres есть расширения, которые могут вам помочь и вам не придется генерить его на уровне приложения.
Эта суперкороткая статья может быть вам полезна: https://postgrespro.ru/docs/postgrespro/9.5/dataty... и дать начальный стимул и понимание куда копать дальше. Удачи )

Update (29.01.20):

Сразу к делу и примерам. Сделать это можно, например, так:

-- Начнем со схемы данных. На всякий случай проиллюстрирую как может выглядеть идея генерации guid базой, с которой
-- я в самом начале и начал. Но вам, наверное, не будет смысла эту функцию использовать, т.к. сценарий использования
-- у вас другой.
--
-- Обратите также внимание, что я поменял тип на BIGINT. У меня была гипотеза, что вы используете TEXT, т.к., возможно,
-- не знали про BIGINT. Недостаток TEXT в том, что Postgres не построит по нему индекс и выборки по id будут все
-- медленнее и медленнее. Я бы порекомендовал сразу отрефакторить все так, чтобы использовался именно BIGINT.
--
-- Все поля также назвал английскими словами, т.к. это можно считать индустриальным стандартом. NOT NULL добавил
-- по наитию: логика подсказывает, что PRIMARY KEY у каждой таблице обязателен, как и данные. Просто для полноты.

-- Начнем с функции, которая будет генерировать нам ID для примера.

CREATE OR REPLACE FUNCTION guid()
    RETURNS BIGINT AS
$BODY$
BEGIN
    -- Количество секунд с начала эпохи Линукса и домножаем на какой-то множитель, чтобы увеличить точность
    -- и получить 1580307917143.431 вместо 1580307917.143431
    RETURN CAST(EXTRACT(EPOCH FROM NOW()) * 1000 AS BIGINT);
END;
$BODY$
    LANGUAGE 'plpgsql' VOLATILE;

-- Теперь перейдем к самой схеме данных и создадим ее.

CREATE TABLE users (
   id BIGINT PRIMARY KEY NOT NULL DEFAULT guid(),
   pseudonym TEXT NOT NULL
);

CREATE TABLE posts (
   id BIGINT PRIMARY KEY NOT NULL DEFAULT guid(),
   content TEXT NOT NULL
);

CREATE TABLE comments (
  id BIGINT PRIMARY KEY NOT NULL DEFAULT guid(),
  text TEXT NOT NULL
);

-- Для того чтобы повесить CONSTRAINT на id целевых таблиц, понадобится сделать VIEW, котоый будет содержать все
-- id из всех этих таблиц, а также функцию, которую мы сможем использовать для CONSTRAINT. По сути, делаем то же,
-- что делали бы на уровне приложения, но на уровне БД.

CREATE OR REPLACE VIEW all_ids AS
SELECT id FROM users UNION
SELECT id FROM posts UNION
SELECT id FROM comments;

-- Теперь перейдем к функции, которая и будет выполнять всю грязную работу.

CREATE OR REPLACE FUNCTION is_unique_id (BIGINT)
    RETURNS BOOLEAN AS 'SELECT CASE WHEN
                                   (SELECT 1
                                    FROM all_ids
                                    WHERE  id = $1) > 0
                        THEN FALSE ELSE TRUE END'
    LANGUAGE 'sql' WITH  (isstrict);

-- Осталось только повесить CONSTRAINT

ALTER TABLE users ADD CONSTRAINT id CHECK (is_unique_id(id));
ALTER TABLE posts ADD CONSTRAINT id CHECK (is_unique_id(id));
ALTER TABLE comments ADD CONSTRAINT id CHECK (is_unique_id(id));

-- А теперь внимание. Теперь вам придется быть очень внимательным при добавлении таблиц, в рамках которых id должен
-- быть уникален. При добавлении новой таблцы будет необходимо:
--   1. Пересоздать VIEW, дополнив запрос новыми таблицами.
--   2. Не забыть повесить аналогичный CONSTRAINT на новую таблицу.
--
-- Также обратите внимание, что при вставке новой записи в любую из таблиц будет проверяться весь созданный VIEW
-- и очень важно чтобы это был не полнотекстовый поиск, а работали индексы, поэтому так важно отрефакторить все в BIGINT.

-- Пришло время тестирования. Вставляем данные.

INSERT INTO users (pseudonym) VALUES ('Первый');
INSERT INTO users (pseudonym) VALUES ('Второй');

INSERT INTO posts (content) VALUES ('О том как надо');
INSERT INTO posts (content) VALUES ('О том как не надо');

INSERT INTO comments (text) VALUES ('Я думаю что решение...');
INSERT INTO comments (text) VALUES ('Хорошо я пропробую сделать...');

-- И глянем что получилось.

SELECT * FROM users;
-- 1580326610797	Первый
-- 1580326611809	Второй

SELECT * FROM posts;
-- 1580326613690	О том как надо
-- 1580326613712	О том как не надо

SELECT * FROM comments;
-- 1580326613779	Я думаю что решение...
-- 1580326613797	Хорошо я пропробую сделать...

-- Время X: тестируем нашу проверку, пытаясь вставить в таблицу users id из таблицы comments:

INSERT INTO users (id, pseudonym) VALUES (1580326613779, 'tiabc');
-- [23514] ERROR: new row for relation "users" violates check constraint "id" Detail: Failing row contains (1580326613779, tiabc)

-- Profit!

Что хочу сказать с точки зрения проектирования архитектуры и вообще. Использование любого нового инструмента должно быть обосновано. Как правило, сложная схема БД ведет к сложностям в поддержке и к тому, что какие-то вещи забывают обновляться, в отличие от уровня приложения.

В вашем же случае, честно говоря, схему очень сильно хочется упростить, а не усложнить. Хочется добавить поле created_at с DEFAULT CURRENT_TIMESTAMP() и хочется добавить реляционные связи. Либо же в принципе уйти на нереляционную БД и задать структуру сущностей там (что опять же должно быть обосновано).

И дальше именно на уровне приложения делать эту выборку, т.к. это упростит поддержку кода, а с точки зрения трудозатрат ваших и БД при выборках и вставках будет то же самое.

Помимо этого, поскольку вы делаете процессинг на основе id и его порядковых номеров, не могу не порекомендовать обратить внимание на одни из базовых принципов проектирования ПО. Конечно, вся картина не видна, но я тут вижу нарушение буквы S (Single Responsibility), что id у вас и за порядок отвечает, и за уникальность (да еще и между несколькими таблицами). Хочется как-то их развязать. Со временем жизни продукта это часто оказывается полезно.

Опять же, беспокойств о том, что вы хотите достичь, достаточно много, но если отвечать именно конкретно на ваш вопрос и давать дополнительно какие-то рекомендации, то как-то так )

Желаем удачи, образования и всех благ )

С уважением,
Иван Томилов
CEO of Athanor

Как в PostgreSQL сделать уникальный идентификатор среди всех таблиц базы (глобально)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт