Как быстро и с минимальной погрешностью подсчитать число записей в таблице с миллиардами записей?

Question

mkone112 @mkone112

Начинающий питонист.

Как быстро и с минимальной погрешностью подсчитать число записей в таблице с миллиардами записей?

Работаю над проектом на django, в качестве бд используется postgres. Бд содержит тысячи таблиц, многие из таблиц могут содержать десятки миллиардов записей.
Проблема - count() выполняется по полчаса.
Я использовал приблизительный подсчет записей вроде:

SELECT reltuples FROM pg_class WHERE relname = "table"

Но результат в 300 раз меньше реального - это слишком большая погрешность.
Есть ли способ, быстро подсчитать число записей, без уменьшения скорости записи?

Вопрос задан более трёх лет назад
1599 просмотров

22 комментария

Подписаться 13 Сложный 22 комментария

Ромзес Панагиотис @romesses

Бд содержит тысячи таблиц
OMG

Написано более трёх лет назад
Ромзес Панагиотис @romesses

mkone112
А в таблицах, случаем, не данные временных серий находятся?
Банально, индекс на поле relname добавлен?

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Ромзес Панагиотис, не понял. pg_class - системная таблица, какая разница, как она там вообще реализована?

Написано более трёх лет назад
Ромзес Панагиотис @romesses

А, упустил этот момент. Не имеет значения что в pg_class, конечно. Речь таки о ваших таблицах, а не системных.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Ромзес Панагиотис, имеет значение. Перечитайте вопрос. Какой индекс вообще, о чем вы?
https://habr.com/ru/post/490320/
но даже если бы индекс помог - у нас на проде подобные изменения бд могут занимать несколько дней - мне никто не согласует остановку бизнеса даже на сутки.

Написано более трёх лет назад
Ромзес Панагиотис @romesses

mkone112,
про индекс уже проехали.
А вот это имелось в виду:

А в таблицах, случаем, не данные временных серий находятся?

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Ромзес Панагиотис,
А в таблицах, случаем, не данные временных серий находятся?

Не понял.

Написано более трёх лет назад
Ромзес Панагиотис @romesses

mkone112,
это когда используется колонка timestamp и какие-то дополнительные колонки с данными. Например, таблица с логированием действий пользователя: время, ID пользователя и действие.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Ромзес Панагиотис, там есть timestamp.

Написано более трёх лет назад
Ромзес Панагиотис @romesses

mkone112, спасибо. Это то, что и хотел узнать.

Написано более трёх лет назад

RazdoR @RazdoR

А если так

SELECT (reltuples/relpages*pg_relation_size(:'tablename')/8192)::bigint FROM pg_class WHERE oid = :'tablename'::regclass

Написано более трёх лет назад

Ромзес Панагиотис @romesses

mkone112,
А какой вообще вариант использования подсчета всех записей? Это где-то фигурирует в отчетах, в админке?
Как часто приходится производить подсчет?

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Ромзес Панагиотис, в отчетах и админке, как-то так вышло что оно используется в бизнес процессах.

Написано более трёх лет назад
Uno @Noizefan

Интересно, почему пал выбор на постгре?
Все кого я слышал говорят что он только для прототипирования полезен, а при любом масштабировании это огромная головная боль
боюсь, может дороже выйти обслуживать на длительной дистанции чем переехать на что-то более адекватное
может таки задумаетесь о переходе?

Написано более трёх лет назад
d'Ivan @2ord

Uno, это оффтопик. Нет смысла убеждать того, от кого не зависит решение.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Uno,
боюсь, может дороже выйти обслуживать на длительной дистанции чем переехать на что-то более адекватное
может таки задумаетесь о переходе?

Насколько длинной? Проекту уже 12 лет минимум. Пока проблемы как-то решались.

Написано более трёх лет назад
Uno @Noizefan

Роман Мирр, комменты для того и комменты. Может и зависит откуда мне знать
mkone112, говоря о длительной дистанции в таком ключе больше имеется ввиду скорость развития, нежели чем просто разница в таймштампах
может 12 лет простаивало все и только последние два месяца вы на проблемы наткнулись

Написано более трёх лет назад
Vitsliputsli @Vitsliputsli

Uno, любая СУБД имеет свои недостатки, любую сложную БД тяжело масштабировать.
Но что не так с PostgreSQL? И что следует выбирать для нагруженных проектов? Что более адекватное?

Написано более трёх лет назад
Uno @Noizefan

Vitsliputsli, почему ко мне эти вопросы?

Все кого я слышал говорят что он только для прототипирования полезен, а при любом масштабировании это огромная головная боль

я ж откуда знаю) если бы знал то писал бы в ответ

Написано более трёх лет назад
FanatPHP @FanatPHP

очередной вопрос из серии "как мне добраться на другой берег?" с уточнением "на плавсредства начальство денег не выделяет, надо плыть голым, со связанными руками и ногами и кляпом во рту"

Ты бы хоть в заголовке всё это своё садо-мазо описывал

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

FanatPHP, все что требуется - в вопросе уже описано, даже с избытком.

Написано более трёх лет назад
FanatPHP @FanatPHP

Речь не про вопрос, а про заголовок.
потому что ответ на вопрос в заголовке - это select count(*)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Hi-TECH Academy

Администрирование PostgreSQL 16. Базовый курс

3 дня

Далее
OTUS

PostgreSQL. Advanced

4 месяца

Далее
Учебный центр IBS

QPT PostgreSQL 16. Оптимизация запросов

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

4 комментария

mkone112 @mkone112 Автор вопроса

Замены бд не будет. Замена бд на таком проекте - это безумно дорого.

Написано более трёх лет назад
Ромзес Панагиотис @romesses

Да, я понимаю, что это головная боль. У вас варианты: или найти какой-то трюк, который будет приемлемо работать на PG или думать об альтернативных вариантах, одно из которых я предлагаю.

Хотя сам не работал с TimescaleDB, но там пишут, что оно работает как расширение PG и можно мигрировать данные в TimescaleDB hypertable.
https://docs.timescale.com/latest/getting-started/setup
https://severalnines.com/database-blog/how-enable-...

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Ромзес Панагиотис,

Да, я понимаю, что это головная боль.

Это не головная боль. Во первых я такие решения принимать не могу, во вторых это безумно дорого - дешевле купить новое здание побольше и забить их серверами помощнее.

Написано более трёх лет назад
Евгений @Nc_Soft

Неплохо кстати отработало
примерно 1.263878e+08, но мгновенно
и select count(*) 131445756, но за 35секунд

Написано более трёх лет назад

11 комментариев

mkone112 @mkone112 Автор вопроса

А если count выполняется скажем пару часов - сколько времени уйдет на analyze?

Написано более трёх лет назад
Boris Köln @BorisKorobkov

mkone112, если count без join / group by выполняется пару часов - надо менять и программистов, и сервер, и саму БД на принципиально другую.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Boris Korobkov,
и сервер, и саму БД на принципиально другую.

Это очень круто звучит. Вот только где взять столько бабла?

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Aleksandr-JS-Developer, считали уже - тут либо обходное решение, которое я и ищу, либо отказ от части функционала.

Написано более трёх лет назад
galaxy @galaxy

А если count выполняется скажем пару часов - сколько времени уйдет на analyze?

А это к вам вопрос. Попробовали хотя бы раз?
И вообще, 300-кратная ошибка в оценке reltuples - это швах со статистикой какой-то. У вас тогда и с планированием запросов могут быть огромные проблемы. Вы автовакуум вообще что ли отключили?

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

galaxy,
А это к вам вопрос. Попробовали хотя бы раз?

Я к сожалению не могу просто взять и сделать запрос на проде, который может его положить. Я должен сначала узнать о примерных границах.

И вообще, 300-кратная ошибка в оценке reltuples - это швах со статистикой какой-то. У вас тогда и с планированием запросов могут быть огромные проблемы. Вы автовакуум вообще что ли отключили?

Вот тут к сожалению не подскажу.

Написано более трёх лет назад
Boris Köln @BorisKorobkov

mkone112, необходимо сделать полный вакуум. Но он полностью блокирует таблицу. И в зависимости от количества данных и производительности сервера может работать как несколько минут, так и много часов. Это уже вопрос не к программисту, а сисадмину.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

Boris Korobkov,
необходимо сделать полный вакуум. Но он полностью блокирует таблицу. И в зависимости от количества данных и производительности сервера может работать как несколько минут, так и много часов.

Теперь я понял почему его не делают.

Написано более трёх лет назад
galaxy @galaxy

mkone112,
Я к сожалению не могу просто взять и сделать запрос на проде, который может его положить. Я должен сначала узнать о примерных границах.

почему он должен что-то положить? ANALYZE можно делать потаблично, начните с не очень больших таблиц, чтобы понять, сильно ли он загружает сервер. ANALYZE не блокирует параллельную запись/чтение.

Написано более трёх лет назад
mkone112 @mkone112 Автор вопроса

galaxy,
почему он должен что-то положить?

не знаю - поэтому и спрашиваю.

Написано более трёх лет назад
foxyhunt @foxyhunt

После такого запроса бд может поплохеть,

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Почему не рабоатет npx prisma generate?
- 1 подписчик
- 02 дек.
- 213 просмотров
2

ответа
Windows

+1 ещё

Средний
Работа PostgreSQL на процессорах с гетерогенной архитектурой под Windows?
- 2 подписчика
- 29 нояб.
- 432 просмотра
4

ответа
Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 359 просмотров
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 248 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 229 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 264 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 115 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 233 просмотра
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 156 просмотров
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 145 просмотров
1

ответ
Показать ещё Загружается…

DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

Golang Developer

SMALL

от 280 000 до 350 000 ₽

Golang Developer

SMALL

До 370 000 ₽

mkone112
А в таблицах, случаем, не данные временных серий находятся?
Банально, индекс на поле relname добавлен?
Ромзес Панагиотис, не понял. pg_class - системная таблица, какая разница, как она там вообще реализована?
А, упустил этот момент. Не имеет значения что в pg_class, конечно. Речь таки о ваших таблицах, а не системных.
Ромзес Панагиотис, имеет значение. Перечитайте вопрос. Какой индекс вообще, о чем вы?
https://habr.com/ru/post/490320/
но даже если бы индекс помог - у нас на проде подобные изменения бд могут занимать несколько дней - мне никто не согласует остановку бизнеса даже на сутки.
mkone112,
про индекс уже проехали.
А вот это имелось в виду:

А в таблицах, случаем, не данные временных серий находятся?
Ромзес Панагиотис,
А в таблицах, случаем, не данные временных серий находятся?

Не понял.
mkone112,
это когда используется колонка timestamp и какие-то дополнительные колонки с данными. Например, таблица с логированием действий пользователя: время, ID пользователя и действие.
Ромзес Панагиотис, там есть timestamp.
mkone112, спасибо. Это то, что и хотел узнать.
А если так
SELECT (reltuples/relpages*pg_relation_size(:'tablename')/8192)::bigint FROM pg_class WHERE oid = :'tablename'::regclass
mkone112,
А какой вообще вариант использования подсчета всех записей? Это где-то фигурирует в отчетах, в админке?
Как часто приходится производить подсчет?
Ромзес Панагиотис, в отчетах и админке, как-то так вышло что оно используется в бизнес процессах.
Интересно, почему пал выбор на постгре?
Все кого я слышал говорят что он только для прототипирования полезен, а при любом масштабировании это огромная головная боль
боюсь, может дороже выйти обслуживать на длительной дистанции чем переехать на что-то более адекватное
может таки задумаетесь о переходе?
Uno, это оффтопик. Нет смысла убеждать того, от кого не зависит решение.
Uno,
боюсь, может дороже выйти обслуживать на длительной дистанции чем переехать на что-то более адекватное
может таки задумаетесь о переходе?

Насколько длинной? Проекту уже 12 лет минимум. Пока проблемы как-то решались.
Роман Мирр, комменты для того и комменты. Может и зависит откуда мне знать
mkone112, говоря о длительной дистанции в таком ключе больше имеется ввиду скорость развития, нежели чем просто разница в таймштампах
может 12 лет простаивало все и только последние два месяца вы на проблемы наткнулись
Uno, любая СУБД имеет свои недостатки, любую сложную БД тяжело масштабировать.
Но что не так с PostgreSQL? И что следует выбирать для нагруженных проектов? Что более адекватное?
Vitsliputsli, почему ко мне эти вопросы?

Все кого я слышал говорят что он только для прототипирования полезен, а при любом масштабировании это огромная головная боль

я ж откуда знаю) если бы знал то писал бы в ответ
очередной вопрос из серии "как мне добраться на другой берег?" с уточнением "на плавсредства начальство денег не выделяет, надо плыть голым, со связанными руками и ногами и кляпом во рту"

Ты бы хоть в заголовке всё это своё садо-мазо описывал
FanatPHP, все что требуется - в вопросе уже описано, даже с избытком.
Речь не про вопрос, а про заголовок.
потому что ответ на вопрос в заголовке - это select count(*)

Answer 1 · 2021-05-04 06:07:51

tested life @krasszen2

житель земли

Не факт, но может это поможет? А еще комменты там почитай.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2021-05-04 15:50:02

TimescaleDB

Похоже, что вам нужна TimescaleDB - оптимизированная СУБД для временных серий.

Как раз вашу проблему должен решить данный запрос (в рамках использования TimescaleDB):

SELECT h.schema_name,
    h.table_name,
    h.id AS table_id,
    h.associated_table_prefix,
    row_estimate.row_estimate
   FROM _timescaledb_catalog.hypertable h
     CROSS JOIN LATERAL ( SELECT sum(cl.reltuples) AS row_estimate
           FROM _timescaledb_catalog.chunk c
             JOIN pg_class cl ON cl.relname = c.table_name
          WHERE c.hypertable_id = h.id
          GROUP BY h.schema_name, h.table_name) row_estimate
ORDER BY schema_name, table_name;

https://github.com/timescale/timescaledb/issues/525

И заодно проверьте другие TSDB.

Добавлено
Попробуйте через трюк с EXPLAIN:

CREATE FUNCTION row_estimator(query text) RETURNS bigint
   LANGUAGE plpgsql AS
$$DECLARE
   plan jsonb;
BEGIN
   EXECUTE 'EXPLAIN (FORMAT JSON) ' || query INTO plan;
 
   RETURN (plan->0->'Plan'->>'Plan Rows')::bigint;
END;$$;

https://www.cybertec-postgresql.com/en/postgresql-...
https://wiki.postgresql.org/wiki/Count_estimate
https://www.citusdata.com/blog/2016/10/12/count-pe...

Answer 3 · 2021-05-04 16:10:28

SELECT reltuples FROM pg_class WHERE relname = "table"

Это и есть самый быстрый способ.
Погрешность можно (нужно) уменьшить, если сделать VACUUM или ANALYZE. Подробнее см. https://www.postgresql.org/docs/9.2/row-estimation...

Answer 4 · 2021-05-04 20:57:41

Не знаю насколько адекватный вариант, но что если в принципе отвязаться от подсчёта из бд, а привязаться к созданиям и удалениям самих данный, типо если запись успешно добавлена то мы в отдельной табличке, созданной специально для хранения количества записей делаем инкремент числа, а если удаляем то декремент

Answer 5 · 2021-05-05 16:19:45

Давайте анализировать. Гугл не в помощь в вашем случае.

How to Define an Auto Increment Primary Key in Pos...

При таких больших таблицах важно чтобы была непрерывность индекса.
Это значит, что удалять записи из таких таблиц дурной тон. А из этого следует, что количество записей равно значению следующего индекса. Значит достаточно узнать значение индекса.

Как быстро и с минимальной погрешностью подсчитать число записей в таблице с миллиардами записей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт