Как лучше хранить журнал в долгосрочной перспективе?

Question

Новоселов Андрей @NovoselovAndey

Как лучше хранить журнал в долгосрочной перспективе?

Появилась необходимость хранить на проекте лог изменений записей в бд, т.к. запись могут отредактировать много человек и может плохо отразиться в дальнейшем. Так же, данный лог должен храниться продолжительный (около 3-5 лет) срок. Как лучше хранить такое? В бд отдельной таблицей, или в текстовом файле?

Вопрос задан более двух лет назад
796 просмотров

3 комментария

Подписаться 8 Простой 3 комментария

Slava Rozhnev @rozhnev

Вопрос не в том как хранить. Вопрос в том как это будет использоваться

Написано более двух лет назад
Новоселов Андрей @NovoselovAndey Автор вопроса

Slava Rozhnev, использоваться будет, я надеюсь редко, в целях восстановления хронологии изменений записей

Написано более двух лет назад
Adamos @Adamos

запись могут отредактировать много человек и может плохо отразиться в дальнейшем

Звучит как организационная проблема, а не техническая.
Стоит в первую очередь решать не проблему отслеживания причин факапа, а проблему его возникновения.
То есть перестроить систему так, чтобы внесение правки пользователем не "отражалось плохо в дальнейшем".
Возможно, тогда решение хранения логов и не понадобится.
Упомянутая Stalker_RED вики-логика (хранение правок вместо изменения данных) - один из вариантов, но все упирается в то, какие у вас данные и как они используются.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Открытые школы T1

Разработчик Java

1 месяц

Далее
OTUS

MS SQL Server Developer

5 месяцев

Далее
Нетология

Продвинутый SQL

5 недель

Далее

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

4 комментария

Adamos @Adamos

1. Например, менеджер CRM может править данные клиента. Инсайдер сможет запакостить базу мусором или пустыми данными, но не может подчистить в ней записи.

2. А зачем хранить "после"? Оно либо в БД, либо в "до" следующей правки.

Написано более двух лет назад
mayton2019 @mayton2019

Adamos, ты не автор вопроса. И поэтому все что мы дальше обсуждаем - это фантазии на тему того что захочет автор.

Я так рассуждаю. Данные аудита - это то с чем ты пойдешь в суд. И документ аудита должен быть само-достаточным. Тоесть запись аудита не может ссылаться на какие-то левые таблицы. Иначе усложняется расследование.

Таблицы аудита в продуктовых системах обычно видят только офицеры безопасности. И несколько человек которые обслуживают БД. Пользователям CRM и проиложению эти таблицы не видны. Они даже не знают о существовании этих таблиц.

Архитектурно аудит проектируется по разному. Это не обязательно таблица. Это могут быть и лог-файлы. Но главное что они по дизайну - однажды создавшись никогда не удаляются пока есть интерес проводить расследования.

Написано более двух лет назад
Adamos @Adamos

mayton2019, создатель столь серьезной системы вряд ли задавал бы подобные наивные вопросы на Тостере. Так что, полагаю, речь о чем-то, сделанном на коленке, и всего лишь о выяснении, кто подгадил, да восстановлении данных.

Написано более двух лет назад
mayton2019 @mayton2019

Adamos, лет 10 назад я-бы возмутился. Но сегодня - итерационная разработка - это норма. Пускай начнут хотя-бы с аудита на коленке. Это лучше чем вообще ничего.

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Журналирование

Простой
Как включить авто-удаление у grafana/loki?
- 1 подписчик
- 21 окт.
- 31 просмотр
0

ответов
Node.js

+1 ещё

Простой
Можно ли настроить grafana на отображение логов как у меня в терминале?
- 1 подписчик
- 20 окт.
- 78 просмотров
0

ответов
API

+1 ещё

Простой
Точь в точь ли маппятся поля json-сущности на поля в таблицах базы данных?
- 1 подписчик
- 05 июл.
- 233 просмотра
2

ответа
Проектирование баз данных

Простой
Правильно ли построена ER диаграмма?
- 1 подписчик
- 11 мая
- 255 просмотров
1

ответ
Журналирование

Простой
Как найти логи именно своего запроса в KIBANA?
- 1 подписчик
- 23 апр.
- 111 просмотров
0

ответов
Информационная безопасность

+2 ещё

Простой
Данная схема реализации базы данных подходит под рамки 152-ФЗ?
- 1 подписчик
- 17 апр.
- 546 просмотров
2

ответа
PostgreSQL

+1 ещё

Простой
Проектирование БД: чем сейчас люди пользуются?
- 1 подписчик
- 09 апр.
- 478 просмотров
4

ответа
C#

+3 ещё

Простой
C# SOAP logging проблема: почему ApplyClientBehavior не вызывается?
- 1 подписчик
- 27 мар.
- 83 просмотра
0

ответов
Проектирование баз данных

Простой
Как лучше сделать базу данных?
- 1 подписчик
- 07 мар.
- 313 просмотров
5

ответов
Проектирование баз данных

Средний
Как спроектировать dwh звезда?
- 1 подписчик
- 05 мар.
- 73 просмотра
1

ответ
Показать ещё Загружается…

Системный аналитик

Data World • Москва

от 180 000 до 210 000 ₽

DevOps инженер

Data World • Москва

До 200 000 ₽

Руководитель проектов по цифровому развитию клиентов в сфере недвижимости (CSM)

Сбер • Санкт-Петербург

от 200 000 ₽

Вопрос не в том как хранить. Вопрос в том как это будет использоваться
Slava Rozhnev, использоваться будет, я надеюсь редко, в целях восстановления хронологии изменений записей
запись могут отредактировать много человек и может плохо отразиться в дальнейшем

Звучит как организационная проблема, а не техническая.
Стоит в первую очередь решать не проблему отслеживания причин факапа, а проблему его возникновения.
То есть перестроить систему так, чтобы внесение правки пользователем не "отражалось плохо в дальнейшем".
Возможно, тогда решение хранения логов и не понадобится.
Упомянутая Stalker_RED вики-логика (хранение правок вместо изменения данных) - один из вариантов, но все упирается в то, какие у вас данные и как они используются.

Answer 1 · 2023-04-04 12:11:10

По сути три больших направления с кучей мелких ответвлений
1. хранить текстовый лог в отдельном файле/сервисе/логохранилище
2. хранить лог действий юзеров в отдельной таблице (встречал один проект, где лог действий был в десятки раз больше, чем сами данные, ага).
3. хранить в той-же таблице предыдущие записи. То есть при редактировании INSERT, а не UPDATE, при этом автоматически проставляется время и автор, а при выборке просто берете последнюю по времени версию.

Это самый удобный путь, и самый простой для внедрения - очень простой откат, удобное сравнение изменений. Из минусов - раздуваете таблицу с данными, но это не проблема если записей не много или изменения редки.

Особняком стоит упомянуть системы с возможностью одновременного редактирования несколькики пользователями, которые автоматически разруливают коллизии. Самый знакомый всем пример - google docs. Но это довольно сложно в реализации.

С учетом "использоваться будет, я надеюсь редко" я бы остановился на текстовом логе. Отдельный лог на каждую запись, можно архивировать старые, можно logrotate натравить.

Answer 2 · 2023-04-16 16:28:34

Лучше всего использовать для хранения логов отдельную БД,предназначенную для этих целей, иначе вы рискнуете очень быстро получить ситуцию, когда таблица с логами будет занимать больше места на диске, чем все остальные таблицы с бизнес данными, вместе взятые. Это неминуемо приведет к проблемам с администрированием такой базы, бэкапы станут больше по размеру, будут делаться дольше и т.д.

В качестве БД для логов лучше всего использовать Click House - базу от Яндекс. Она отлично для этих целей подходит и невероятно хорошо сжимает данные, т.е. помимо всего прочего, еще и на диске эти данные будут не много места занимать. Также вы можете с Click House настроить полтики хранения данных, например указать что данные в таблице лога должны храниться 5 лет, и CH будет сам их чистить.

Нужно также учесть, что если вы хотите сделать хранение лога транзакционным, т.е. гарантировать, что не будет ситуации, когда у вас бизнес данные поменялись, а при запили в лог упала ошибка, и данные не были залогированы, то нужно вести запись в CH в два этапа. Нужно продублировать таблицу для ведения лога в вашей транзакционной БД, и писать в нее информацию о действиях пользователей в одной транзакции с изменением бизнес данных. Далее нужно реализовать джобу, которая в фоне например по расписанию, или иным образом, будет скидывать данные из лог таблицы в транзакционной БД в таблицу ClickHouse, затем удалять данные в лог таблице транзакцонной БД, только после их успешного переноса в CH. Таким образом таблица с логами в транзакционной БД всегда будет маленького размера.

См. также паттерн Transactional Outbox

Answer 3 · 2023-04-04 12:59:24

Как его лучше хранить? Организационная часть. Если вы хотите хранить его так чтобы никто не изменил - то надо строить отдельным сервисом. Иначе те-же люди что и натворили бед смогут зачистить свои следы. Или я не понял корень вашей проблемы.

Техническая часть. Очевидно что нужна еще одна таблица. С датой аудита. С реквизитами пользователя который делал бизнес-операцию. И две версии данных. "До" и "после" изменения. Данные можно хранить в денормализованном формате (XML или Json) для простоты схемы.

Answer 4 · 2023-04-04 23:20:46

Часто для таких целей используется откидывание в elasticsearch, который нативно умеет по нужным правилам сортировать данные на горячие, теплые и холодные (например последний месяц - hot, год - warm и остальное - cold)

Но всё зависит от потребностей бизнеса. Если история сущности востребована часто и отображается в рамках дизайна приложения - то можно и удобно хранить историю в таблице кто-то-когда-было-стало и если история нужна долго, но это дорого - то тем или иным образом сливать самое старое на дешевые и медленные хранилища.
Подразумевая sql - оптимально для такого писать историю триггерами, ну и если жмёт объём - разносить "по шпинделям".

Как лучше хранить журнал в долгосрочной перспективе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт