PostgreSQL, как ускорить проверку наличия уникального значения в столбце?

Question

Илья @Gorily

PostgreSQL, как ускорить проверку наличия уникального значения в столбце?

Есть простая таблица:

CREATE TABLE public.notices (
  id TEXT NOT NULL,
  json TEXT,
  CONSTRAINT notices_idx PRIMARY KEY(id)
) 
WITH (oids = false);

В json может быть длиннющий текст.
Перед добавлением записей проверяю их наличие в таблице, этот этап прошёл три стадии развития:

Проверка по одному: select * from notices where id = '123' limit 1);

Проверка по одному:

select exists(select 1 from notices where id = '123');

Проверка всем скопом:

(SELECT id FROM notices WHERE id='123' LIMIT 1) UNION ALL (SELECT id FROM notices WHERE id='234' LIMIT 1) UNION ALL ...

Последний способ дал существенное ускорение, но количество записей растёт, количество id в запросе большое, так что скорость проверки пачки в 50 тыс. id для базы размером ~1 млн. записей составляет от 20 до 60 секунд на текущей машине.

Хотелось бы ускорить проверку до минимума. Как можно оптимизировать?
Поскольку поле json может быть очень длинным, виню в том числе и его. Если я выделю id в отдельную таблицу, есть ли ускорение?

Вопрос задан более трёх лет назад
4754 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

5 недель

Далее
Академия Эдюсон

SQL-разработчик: тариф Базовый

2 месяца

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

Viktor Koltcov @Vityarik

Pavel Denisov: IN конечно лучше, но у IN вроде есть ограничение на количество элементов, или я ошибаюсь?

Написано более трёх лет назад
Илья @Gorily Автор вопроса

Viktor Koltcov Pavel Denisov
Cпасибо, сейчас попробую. У меня были сомнения по поводу того, сколько WHERE примет значений для проверки. Вариант с UNION ALL - первое, что нагуглил по множественной проверке. В теме особо не разбираюсь.

Написано более трёх лет назад
Илья @Gorily Автор вопроса

Viktor Koltcov: Судя по этому обсуждению, лимитов нет: stackoverflow.com/questions/1009706/postgresql-max...
В документации тоже ничего подобного не нашёл.

Написано более трёх лет назад
Илья @Gorily Автор вопроса

Pavel Denisov: Потрясающий вариант. Было 30 секунд, стало меньше одной. К сожалению, не могу отметить ваш комментарий как ответ, отмечаю всю ветку. Если хотите, для статистики, можете еще раз ответить ниже, я отмечу его тоже.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

4 комментария

Илья @Gorily Автор вопроса

Это только одна из таблиц, их больше на самом деле.

Написано более трёх лет назад
Ivan Velichko @iximiuz

Gorily: Тогда попробуйте сделать хранимую процедуру, в которой сначала делать выборку всех уже существующих id в таблице в массив, а затем вставку только тех строк, id которых в массиве не оказалось. Не совсем SQL-решение конечно, но сведется к одному SELECT и одному INSERT + цикл по массиву. До каких-то пределов по кол-ву id в одной выборке должно работать нормально.

Написано более трёх лет назад
Илья @Gorily Автор вопроса

Иван Величко: Суть именно в том, чтобы не делать лишние INSERT и вообще действия на стороне клиента. Дублей много, много обработок ошибок, а это точно скажется на производительности.

Написано более трёх лет назад
Ivan Velichko @iximiuz

Gorily: на стороне клиента будет всего одно действие: select * from my_stored_procedure(). И хранимка сама по себе будет содержать всего один select и один insert.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 279 просмотров
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 146 просмотров
2

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 254 просмотра
3

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 280 просмотров
3

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 286 просмотров
2

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 328 просмотров
1

ответ
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 151 просмотр
2

ответа
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 301 просмотр
3

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 876 просмотров
5

ответов
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 669 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-02-24 15:23:57

Для поля id есть индекс, это первичный ключ?

3 проверка - по моему ужас. Уж лучше так:
SELECT id FROM notices WHERE id='123' OR id='234'...

Answer 2 · 2015-02-24 15:54:46

Ivan Velichko @iximiuz

У вас доступ фактически по ключу, храните в key-value хранилище просто, например в Redis.

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2015-02-28 11:34:16

Вероятно в большинстве случаев объекты уже есть, так что может быть лучше получать отсутствующие?

select "id" from "notices" where "id" not in ('1', '2', ...)

PostgreSQL, как ускорить проверку наличия уникального значения в столбце?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт