Как оптимизировать скорость обновления материализованного представления Postgres?

Question

Хабровчанин Ли @LiHabr

DE Финтех

PostgreSQL

Как оптимизировать скорость обновления материализованного представления Postgres?

Есть таблица (GREENPLUM 6.26 от Arenadata), содержащая десятки миллионов строк, один столбец которой содержит json. В этом json десятки элементов разных типов данных - целые числа, строки, флоат.
Чтобы достать эти данные создано материализованное представление, которое раскладывает json в плоский вид (каждый элемент json - это отдельный столбец).
REFRESH этого материализованного представления занимает очень много времени (минуты, иногда десятки минут).
Что можно сделать чтобы оптимизировать разложение json на элементы?
SELECT, определяющий материализованное представление выполняется почти мгновенно.
Так же, если вместо материализованного представления создавать обычное представление с таким же SELECT, то оно создается мгновенно, но SELECT * из этого обычного представления так же долго, как и REFRESH мат. представления.

Вопрос задан 20 сент.
272 просмотра

3 комментария

Подписаться 3 Средний 3 комментария

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Почему с фильтром PostgreSQL выдаёт больше записей?
- 2 подписчика
- 15 дек.
- 188 просмотров
4

ответа
PostgreSQL

Простой
Как использовать оконные функции в Order By?
- 1 подписчик
- 15 дек.
- 66 просмотров
2

ответа
PostgreSQL

Простой
Убрать другие строки из джоина?
- 1 подписчик
- 11 дек.
- 84 просмотра
1

ответ
C#

+2 ещё

Средний
Как в EF Core (Npgsql) указать владельца базы данных и ее таблиц?
- 2 подписчика
- 11 дек.
- 144 просмотра
2

ответа
PostgreSQL

+1 ещё

Простой
Откуда скачать драйвера PostgreSQL? Нужно ли скачивать PostgreSQL?
- 1 подписчик
- 05 дек.
- 137 просмотров
1

ответ
PostgreSQL

Простой
Как удалить строку из одной таблицы и добавить эту же строку в другую таблицу?
- 1 подписчик
- 03 дек.
- 111 просмотров
4

ответа
Python

+1 ещё

Простой
Ошибка при подключение к PostgreSQL в Docker через Python psycopg2. В чем проблема?
- 2 подписчика
- 03 дек.
- 212 просмотров
3

ответа
Python

+2 ещё

Простой
Python как через psycopg2 подключиться к PostgreSQL в Doker?
- 1 подписчик
- 02 дек.
- 114 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему не создается бд в postgreSQL?
- 1 подписчик
- 24 нояб.
- 225 просмотров
1

ответ
Компьютерные сети

+2 ещё

Простой
В чем причина ошибки?
- 1 подписчик
- 22 нояб.
- 118 просмотров
0

ответов
Показать ещё Загружается…

Разработчик PostgreSQL

Neoflex • Москва

от 90 000 до 250 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Администратор PostgreSQL

Гринатом

До 200 000 ₽

Нужно скопировать слайдер на чистом HTML+CSS и немного доработать

21 дек. 2024, в 14:14

500 руб./за проект

Сделать слайдер (скопировать с сайта) и оптимтзиировать

21 дек. 2024, в 14:12

500 руб./за проект

Сделать страницу на Readymag

21 дек. 2024, в 13:08

1000 руб./в час

REFRESH этого материализованного представления занимает очень много времени (минуты, иногда десятки минут).
Что можно сделать чтобы оптимизировать разложение json на элементы?

Без тонкой диагностики непонятно. На что там идут ресурсы. Диск? Процессор?

Возможно тратиться время на парсинг. Попробоуйте в оригинальной таблице заменить JSON на JSONB.

Answer 1 · 2024-09-25 21:28:35

Спасибо всем, кто ответил!
Дело было в неоптимальном SELECT. Дело в том, что присутствовало многократное приведение к типу JSON. Убрали его - время сократилось до секунд.

Answer 2 · 2024-09-20 17:35:15

Прекратить пользоваться json, разобрав его структуру хотя бы для тех данных, которые требуются независимо друг от друга, и разместить в таблицах. А то это тупо убивает любые методологии, которые созданы в postgres для ускорения работы с этими данными.

Единственное, где сериализация данных в реляционных базах оправдана - это когда данные запрашиваются целиком из записи и имеют нерегулярную (непрогнозируемую/случайную/сложную) структуру.

Answer 3 · 2024-09-21 18:15:12

REFRESH в постгресе выполняет по сути пересоздание представления. Если у вас огромная таблица-источник, да еще куча данных упакована в JSON, тут матвью вряд ли в текущем виде спасет.

Как часто меняются данные в JSON? Какая часть таблицы обновляется (или там вообще aphend-only)?
Если данные меняются редко и/или лишь небольшая их часть (или вы готовы несколько пожертвовать производительностью таких UPDATE), можете триггером при обновлении/вставке JSON колонки распаковывать данные и записывать отдельную таблицу (которая раньше у вас была матвью).

Если скорость операций обновления на исходной таблице критична, добавьте поле типа json_col_updated TIMESTAMP (можно сделать отдельную таблицу со связью 1-к-1, если исходную не хочется трогать) и обновляйте его триггером, когда меняется поле с JSON. Дальше с нужной периодичностью распаковывайте массово только обновленные данные (json_col_updated > last_unpack).

Как оптимизировать скорость обновления материализованного представления Postgres?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт