PostgreSQL — как архивировать старые записи в большой таблице?

Question

Михаил Юрьевич @Forbidden

CEO, CTO @ a-parser.com

PostgreSQL

PostgreSQL — как архивировать старые записи в большой таблице?

Есть таблица:

100 млн записей
каждый день прирост 1-2 млн записей
горячие данные - за последний месяц

На данный момент база крутится на SSD дисках, ищем вариант оптимального архивирования старых записей, пока вырисовывается такое решение:

поднимаем второй сервер на больших HDD дисках
по крону складываем старые записи
меняем код приложения - добавляем запросы к 2ум базам на основе необходимой даты

Больше всего смущает последний пункт, существует ли прозрачное решение отправки 2ух запросов к разным базам и автоматическое слияния результата?
Может есть более правильный подход к данной проблеме?
Что делать когда данных станет больше и понадобиться уже несколько серверов для архивации?

Вопрос задан более трёх лет назад
2505 просмотров

4 комментария

Подписаться 4 Оценить 4 комментария

sim3x @sim3x

данные из таблицы слабо связаны (не связаны) в бд?
Почему появилось желание заняться такими вещами?

Написано более трёх лет назад
Михаил Юрьевич @Forbidden Автор вопроса

sim3x: данные не связаны, желание - держать горячие данные в быстрой бд(ssd) и остальные(более старые, к ним такие же запросы, только реже) в архивной, при этом максимально прозрачно для приложения

Написано более трёх лет назад
sim3x @sim3x

Forbidden: те начались проседания по скорости?

*замечание: "быстрая база" только тогда, когда она в памяти лежит полностью, чуть медленне, когда все индексы лежат в памяти
**если под ссд не понимается массив, включенный через pci, с ddr5 кешем на борту

Написано более трёх лет назад
Михаил Юрьевич @Forbidden Автор вопроса

sim3x: проседаний нет, но в обозримом будущем вылезем за размеры SSD

Написано более трёх лет назад

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Почему увеличилась генерация WAL-сегментов?
- 1 подписчик
- 21 авг.
- 69 просмотров
1

ответ
SQL

+1 ещё

Простой
Проверка связывания таблиц, как проверить?
- 2 подписчика
- 20 авг.
- 202 просмотра
0

ответов
PostgreSQL

Простой
Как подсчитать данные для каждого узла(включая вложения) дерева?
- 1 подписчик
- 15 авг.
- 66 просмотров
0

ответов
PostgreSQL

Простой
PostgreSQL, как осуществить поиск по вложенному json?
- 1 подписчик
- 11 авг.
- 110 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ изменять переменную в запросе?
- 1 подписчик
- 11 авг.
- 121 просмотр
0

ответов
PostgreSQL

Простой
Как правильно реализовать перевод данных из STG в ODS при помощи SCD2 в PostgreSQL?
- 1 подписчик
- 11 авг.
- 51 просмотр
0

ответов
PostgreSQL

Простой
Почему возникает ошибка «authentication method 10 not supported»?
- 1 подписчик
- 31 июл.
- 90 просмотров
0

ответов
Linux

+2 ещё

Простой
Postgres Docker: Странные временные файлы в папке overlay2?
- 1 подписчик
- 23 июл.
- 240 просмотров
1

ответ
PostgreSQL

Простой
Почему не удается авторизоваться под юзером postgres?
- 1 подписчик
- 22 июл.
- 148 просмотров
3

ответа
PostgreSQL

Простой
Как подружить анализатор PostgreSQL со своим составным типом?
- 2 подписчика
- 19 июл.
- 1274 просмотра
1

ответ
Показать ещё Загружается…

DBA (PostgreSQL)

СберТех • Москва

До 420 000 ₽

Инженер баз данных

Сбер • Санкт-Петербург

До 100 000 ₽

Backend Developer Typescript | Node. js | Nest. js ОФИС

Прямой Контракт • Москва

До 300 000 ₽

данные из таблицы слабо связаны (не связаны) в бд?
Почему появилось желание заняться такими вещами?
sim3x: данные не связаны, желание - держать горячие данные в быстрой бд(ssd) и остальные(более старые, к ним такие же запросы, только реже) в архивной, при этом максимально прозрачно для приложения
Forbidden: те начались проседания по скорости?

*замечание: "быстрая база" только тогда, когда она в памяти лежит полностью, чуть медленне, когда все индексы лежат в памяти
**если под ссд не понимается массив, включенный через pci, с ddr5 кешем на борту
sim3x: проседаний нет, но в обозримом будущем вылезем за размеры SSD

Answer 1 · 2016-10-08 16:19:44

Как разделить таблицу, горячие данные оставить на SSD, холодные - на HDD. Для этого во-первых партицирование для разделения таблицы на две. https://habrahabr.ru/post/273933/ (как обычно, внимание на комменты и pg_partman)
Затем, до миграции данных (или сразу при создании партиций), перенос архивных в другой tablespace www.postgresql.org/docs/current/static/sql-createt... stackoverflow.com/a/11228536 на HDD.
Затем миграция данных на партиции.
Вообще-то, это уже может быть вполне достаточно. 1-2млн строк * 365 дней это не запредельно много. Хотя не указан характер данных.

Прозрачный для приложения перенос таблиц на другую железку - FDW, foreign data wrapper. Чем актуальнее postgresql - тем лучше. Пилится штука весьма активно по части оптимального распределения запроса. Дружит ли уже с партицированием - честно, не в курсе.

Прозрачно отправить запрос на две базы и склеить - элементарно view с union all из локальной таблицы и FDW. Только это неинтересный вариант, зачем для запроса на горячие данные дёргать холодную часть базы?

Вдобавок, можете посмотреть в сторону postgresql-xl, greenplum. Первый года полтора назад был не вполне production-ready, сейчас не знаю, второй используется даже в банковской сфере, но как мне помнится катастрофически не годится для OLTP, только OLAP нагрузка.

PostgreSQL — как архивировать старые записи в большой таблице?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт