Архивирование записей из БД, через определённый промежуток времени. Как лучше сделать?

Question

Борис Животное @Casper-SC

Программист (.NET)

Архивирование записей из БД, через определённый промежуток времени. Как лучше сделать?

Предположим есть БД, в которую сервер сливает данные из большого кол-ва однотипных источников. Например, из ночных клубов финансовую информацию о покупках через кассу, не важно, просто пример.

В БД есть таблица Payment. Вот в эту таблицу за сутки может слиться очень большое кол-во записей с 1000 клубов. У нас есть условие, что нужно данные из этой таблицы через 2 года отправлять на архивный сервер. Вот как лучше организовать такие таблицы, чтобы это не тормозило. Ведь данные будут периодически как-то проверяться есть ли для репликации в архив что-то сегодня. Да, в принципе, можно проверять всего 1 раз в сутки.

Что думаю я:

Вариант 1:
Создаётся таблица с датами. В таблице с датами хранится дата с точностью 1 сутки. В эту таблицу помещается дата и идентификатор. В таблицу Payment добавляем CreationDateId, который соответствует дате в той первой таблице с датами. Тем самым мы сэкономим на каждой таблице не много, но и не мало, да и не нужна нам точная дата создания записи, хватит и суток. В итоге у нас будет одна таблица Payment, которая содержит гигантское кол-во записей.

Вариант 1 - проблемы:
При поиске записей, которые надо слить в архив и при удалении реплицированных данных будут тормоза. Похоже, вариант отпадает? Или можно что-то даже в этом варианте сделать так, что будет работать хорошо?

Вариант 2:
Создаём в БД всё так же таблицу с датами и CreationDateId в каждой записи из таблицы Payment и других, как описано в варианте 1.
Далее мы создаём таблицу, которая хранит названия таблиц, которые ещё не реплицированы.
Payment_Tables_NR (NR -Not Replicated).
Payment_Tables_Del

В Payment_Tables_NR мы помещаем название таблицы, которая соответствует сегодняшнему дню:
Payment_16_02_2016, все данные пришедшие 16.02.2016 мы пишем в Payment_16_02_2016 и каждый день по той же схеме. В Payment_Tables_NR мы помещаем название этой таблицы. Потом, когда надо узнать, какие записи нужно реплицировать, тогда мы и проверяем даты из названий таблиц из Payment_Tables_NR. Когда мы, какие нужно данные реплицировали, из Payment_Tables_NR удаляем название таблицы, данные из которой реплицированы. Помещаем это название в Payment_Tables_Del. Далее, в какой-то промежуток времени срабатывает триггер в Бд и удаляет все таблицы из БД, которые есть в Payment_Tables_Del и после этого удаляет названия этих таблиц из Payment_Tables_Del.

Или есть ещё круче решение?

Или может есть где-то исходники, где эта схема реализована очень грамотно?

Вопрос задан более трёх лет назад
1144 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

3 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+1 ещё

Средний
Не могу подключить базу данных Access к приложению в Visual Studio?
- 3 подписчика
- 22 часа назад
- 72 просмотра
0

ответов
SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек.
- 208 просмотров
2

ответа
C#

+2 ещё

Простой
Каков вектор развития legacy-проекта на WinForms?
- 1 подписчик
- 03 дек.
- 178 просмотров
1

ответ
Программирование

Простой
Какие технологии/ИИ есть для клонирования русской речи?
- 11 подписчиков
- 02 дек.
- 579 просмотров
1

ответ
Программирование

+2 ещё

Средний
Возможно ли написать программу, которая будет удалять все данные с дисков?
- 3 подписчика
- 19 нояб.
- 965 просмотров
10

ответов
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 221 просмотр
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 84 просмотра
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 261 просмотр
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 194 просмотра
2

ответа
.NET

+1 ещё

Простой
Как решить проблему с созданием проекта в решении Visual Studio?
- 1 подписчик
- 29 окт.
- 122 просмотра
1

ответ
Показать ещё Загружается…

Backend developer

Creative Code

До 190 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Backend Developer

Playerok

от 400 000 ₽

Answer 1 · 2016-02-16 13:45:22

В таблице с вашими записями заведите поле CreationDate и заполняйте его при добавлении записей. Индекс по этому полю и поиск в базе старых записей будет отрабатывать очень быстро без особого напряга на сервер.

Answer 2 · 2016-02-16 14:40:46

Дмитрий @dmtrrr

Backend developer

Партиционирование таблицы может вам помочь.

Ответ написан более трёх лет назад

1 комментарий

Архивирование записей из БД, через определённый промежуток времени. Как лучше сделать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт