Хранение хронологии изменения данных — как избежать создания дубликатов и оставить вес данных в таблице минимальным?

Question

Олег Яценко @Samber

Full Stack Web Developer

MySQL

Хранение хронологии изменения данных — как избежать создания дубликатов и оставить вес данных в таблице минимальным?

В БД хранится история изменения некоторых данных об игроке, так же именно БД должна отвечать за отсутствие дубликатов записей.

Структура таблицы была:

account_id |   time   | param_1 | param_2 | param_3 |  sum  |
___________|__________|_________|_________|_________|_______|
    10     |    30    |   110   |   120   |   150   |  380  |
    10     |    20    |   100   |   120   |   150   |  370  |

Запросы (insert ignore) могут приходить повторно с теме же параметрами.
Поскольку значения param_n могли только увеличиваться, в sum хранилась сумма параметров param_n.
Уникальный индекс (account_id,sum) позволял не создавать дубликаты.

Теперь же добавились новые параметры X_param_n, значения которых могут как увеличиваться так и уменьшаться.
Структура стала:

account_id |   time   | param_1 | param_2 | param_3 | X_param_1 | X_param_2 |  sum  |
___________|__________|_________|_________|_________|___________|___________|_______|
    10     |    30    |   110   |   120   |   150   |     0     |     0     |  380  |
    10     |    20    |   100   |   120   |   150   |     0     |     0     |  370  |

Теперь возможна ситуация:

INSERT IGNORE INTO table VALUES (10,40,110,120,150,20,20,420);
INSERT IGNORE INTO table VALUES (10,50,110,120,170,0,20,420);
INSERT IGNORE INTO table VALUES (10,60,110,120,170,20,20,440);

, при которой второй запрос не создаст новой строки в БД, данные о том что параметр X_param_1 менял свое значение будут утеряны:

account_id |   time   | param_1 | param_2 | param_3 | X_param_1 | X_param_2 |  sum  |
___________|__________|_________|_________|_________|___________|___________|_______|
    10     |    60    |   110   |   120   |   170   |     20    |     20    |  440  |
    10     |    40    |   110   |   120   |   150   |     20    |     20    |  420  |
    10     |    30    |   110   |   120   |   150   |     0     |     0     |  380  |
    10     |    20    |   100   |   120   |   150   |     0     |     0     |  370  |

Понимаю, что можно использовать вместо суммы параметров их хеш, но это займет значительно дисковое пространство.
Так же можно просуммировать param_n и в конец дописать значения всех X_param_n - этот вариант тоже не подходит, поскольку параметров X_param_n достаточно много.

Нужен вариант, который позволит избежать описанной выше ситуации и при этом незначительно повлияет на вес данных в таблице. (строк на данный момент больше 40kk).
Может что еще посоветуете? Спасибо!

Вопрос задан более трёх лет назад
2346 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее
GB (GeekBrains)

Профессия Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 09 дек.
- 283 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 200 просмотров
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 223 просмотра
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 624 просмотра
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 343 просмотра
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 129 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 432 просмотра
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 129 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 182 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 204 просмотра
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

Answer 1 · 2014-07-11 07:46:24

Вообще надо понимать что в задаче со строгой консистентностью данных, ситуация когда у Вас срабатывает ignore говорит о том что вы что то не то делаете)

Исходя из условий задачи - у меня сложилось стойкое ощущение что эта таблица изначально спроектирована не совсем корректно.

Я не понимаю почему вы выбрали уникальным (account_id, sum) а не (account_id,time)
Что такое time можно сейчас только догадываться, но если time не является уникальным для каждого account - надо добавить еще какое то поле которое совмесно с account_id и time будет давать уникальный ключ.

Либо как еще один вариант (телепат mode on ): если эта таблица как бы слепок полей из профиля пользователя account_id в момент времени time (когда что то изменилось) - надо просто добавить автоинкрементный primary key, убрать уникальный индекс и вставлять простым insert

если что пишите в скайп dentelis.

Хранение хронологии изменения данных — как избежать создания дубликатов и оставить вес данных в таблице минимальным?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт