Есть ли возможность в postgres сделать индекс для count запросов?

Question

devalone @devalone

̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻

PostgreSQL

Есть ли возможность в postgres сделать индекс для count запросов?

Цель - сделать быстрыми запросы вида

`SELECT COUNT(*) FROM table WHERE column > value AND column < value2`

в частности - строить графики распределения записей по дате создания и другим полям, сейчас такие запросы на таблице размеров в 60 млн записей выполняются невероятно долго(до часа, т.к. постгрес перебирает все записи в индексе, что удовлетворяют условию).

Теоретически, нет проблем хранить количество в индексе, например в бинарном дереве и тогда выбор `WHERE timestamp > N AND timestamp < M` будет занимать log(N), что очень хорошо.

Есть ли возможность как-то сделать такие вопросы быстрыми, пускай и не максимально точными?

Вопрос задан более трёх лет назад
241 просмотр

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

4 комментария

devalone @devalone Автор вопроса

> Один из общих способов решения, если изменений в базе значительно меньше чем запросов на чтение - собирать необходимые данные тригерами в отдельную табличку, и делать запросы уже в нее.

Такое себе решение.. А если запросы могут быть постоянно разными и всё, что их объединяет - это то, что они используют count по какому-то проиндексированному полю.

> p.s. индексы там и так используются, единственное, попробуйте вместо count(*) использовать count(индексируемое поле, используемое в where)

Да он и без явного указания понимает, в explain есть "Bitmap Index Scan", но это не делает запрос сильно быстрее, он всё равно не хранит в своём индексе количество записей, иначе запрос бы не занимал так много времени.

Написано более трёх лет назад
rPman @rPman

он по определению должен будет пройтись по записям (умноженное на логарифм от их количества или от общего количества, в зависимости от типа индекса), количество которых будет считать, так что нет.

sql базы данных не волшебная пилюля, везде приходится изворачиваться и ничего лучше кеша не придумали.

p.s. вы можете хранить как промежуточные значения так и конечные результаты всех ваших запросов, это зависит от вас и характера этих запросов и их использования

p.p.s. есть еще table partitioning (в т.ч. и автоматический) когда вы делите вашу базу на части по условию (например у вас в where условие по времени и к примеру 99% запросов падают на последний год, а записи за предыдущие года очень редко появляются в запросе). Понятно, если вы делаете это вручную (в именах таблиц например), вам придется учитывать это и в запросах, а так же создавать новые таблицы (для новых значений) но это может позволить снизить нагрузку на порядок, так как основной поток запросов пойдет в маленькую таблицу (за текущий период) и не будет затрагивать все записи.

Написано более трёх лет назад
devalone @devalone Автор вопроса

rPman,
> он по определению должен будет пройтись по записям (умноженное на логарифм от их количества или от общего количества, в зависимости от типа индекса), количество которых будет считать, так что нет.

Почему должен? Если в индексе хранится значение, то нет.

> p.p.s. есть еще table partitioning (в т.ч. и автоматический) когда вы делите вашу базу на части по условию (например у вас в where условие по времени и к примеру 99% запросов падают на последний год, а записи за предыдущие года очень редко появляются в запросе). Понятно, если вы делаете это вручную (в именах таблиц например), вам придется учитывать это и в запросах, а так же создавать новые таблицы (для новых значений) но это может позволить снизить нагрузку на порядок, так как основной поток запросов пойдет в маленькую таблицу (за текущий период) и не будет затрагивать все записи.

Как я понимаю, делить можно только по одному полю? Мне нужно делать запросы по куче разных полей.

Написано более трёх лет назад
rPman @rPman

devalone, делите как угодно, партицирование это как индексирование хешем, которое вы вручную реализуете.

например у вас есть поле A и поле B, оба позволяют разделить выборку на пополам, соответственно у вас 4 таблицы table_AL_BL, table_AG_BL, table AL_BG и table_AG_BG, где L и G соответственно группа меньше и больше порогового значения.

соответственно у вас запросы должны либо генерироваться на лету (подставляться имена таблиц в соответствии со значениями интервалов) либо вы должны заранее нагенерировать всевозможные комбинации и инициализировать запросы в драйвере базы данных (prepare для sql запросов иногда дает небольшой прирост к скорости)

p.s. например понятие архивная база данных, в которую записи физически переносятся, когда необходимость в оперативном доступе к ним отпадает, и есть частный случай партицирования

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 96 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 355 просмотров
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 172 просмотра
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 334 просмотра
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 350 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 806 просмотров
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 319 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 388 просмотров
2

ответа
Linux

+4 ещё

Средний
Runtipi: как корректно переключить встроенный Postgres-контейнер на внешний Postgres (.env / runtipi-cli / docker compose)?
- 1 подписчик
- 26 дек. 2025
- 217 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2019-05-10 21:46:55

Как написали выше - желательно такое аггрегировать заранее - в фоне

Но триггеры с записью для этого не оч подходят, имхо, т.к. каждый раз придётся дописывать код записи, а не новые привычные всем запросы
Для PostgreSQL существует расширение PipelineDB, как им пользоваться можете почитать тут https://habr.com/ru/post/432512/, это похоже именно на то, что вам нужно

А вообще, если данные растут инкрементально, то может стоит рассмотреть индекс BRIN https://habr.com/ru/company/postgrespro/blog/346460/ ?
Весить он будет мало, а работать - вполне достойно, но доку читать внимательно
И.. 60 лямов записей ни о чём не говорит, без информации о размере таблицы и её структуре. Связано с особенностями хранения/чтения

Или ещё вариант - пробовать столбцовые БД ;)

Answer 2 · 2019-05-10 00:25:20

Один из общих способов решения, если изменений в базе значительно меньше чем запросов на чтение - собирать необходимые данные тригерами в отдельную табличку, и делать запросы уже в нее.

p.s. индексы там и так используются, единственное, попробуйте вместо count(*) использовать count(индексируемое поле, используемое в where)

Answer 3 · 2019-05-15 15:47:20

1. Выше верно указали, что нужны агрегаты. Агрегаты могут быть частичными. Если count у вас без distinct, то показатель будет аддитивным и проблем с суммированием по агрегатам быть не должно.
2. Раз у вас таблица так растет нужно ее секционировать. Скорее всего по дате.

Есть ли возможность в postgres сделать индекс для count запросов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт