Как грамотно удалять дублирующиеся строки/связи в базе данных?

Question

Андрей Стрелков @strelkov_av

Как грамотно удалять дублирующиеся строки/связи в базе данных?

Добрый день, подскажите пожалуйста, как более грамотно нужно решить мою задачу.

У меня имеется 5+ таблицы описывающие как бы инвентаризацию компьютерного парка в сети. Информация в таблицы поступает от сторонней программы с различной периодичностью, процесс вставки контролировать не могу, могу только уже с имеющейся информацией что то делать

Первая эта таблица REPORT в неё время от времени вставляются новые строки, т.е. каждая новая строка, это созданный новый отчёт
Вторая это CPU - таблица справочник процессоров использующиеся в компьютерном парке сети (значения уникальны)
И третья CPU_RELATION_REPORT - таблица для организации связи многие ко многим между REPORT и CPU
И аналогично 4 и 5 таблица, просто описывающие MOTHERBOARD

Ниже на скриншоте привел мою проблему, а именно в том, что отчеты снимаются с компьютеров при каждой их включении, и получается так, что смена комплектующих это явление достаточно редкое, и в результате чего порождаются очень много повторяющихся связей и отчётов как таковых, а смысла их хранить нет никакого

Так вот вопрос, в том, как грамотно от таких избавляться, какой такой хитрый нужно сделать запрос который найдёт строки отчётов у которых по связям одни и теже связи с таблицами CPU, MOTHERBOARD, ... (таких таблиц справочников на самом деле 10 и более) по сравнению с предыдущими строка в разрезе одного HOST и удалит их.
Т.е. по скриншотму ниже нужно удалить первую строку из REPORT и первые строки из CPU_RELATION_REPORT, MOTHERBOARD_RELATION_REPORT - тем самым оставив наиболее свежую и актуальную.

Т.е. нужно как то хитро за уникалить комбинации связей и отчётов избавившись от дубликатов

p.s. причем надо признать, что дальше у меня ещё сложнее задача, есть такие связи которые ещё имеют дополнительные атрибуты, т.е. к таблие ..._RELATION_... подключается ещё одна таблица которая описывает какие то переменные именно у этой связи - и получается нужно ещё смотреть уникальность не только в разрезе REPORT -> RELATION -> CPU, а ещё и значений дополнительной таблицы подключенной к RELATION

Вопрос задан более трёх лет назад
82 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Яндекс Практикум

Java-разработчик

10 месяцев

Далее
Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 2 подписчика
- 03 нояб.
- 126 просмотров
2

ответа
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 1 подписчик
- 29 окт.
- 141 просмотр
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 176 просмотров
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 187 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 219 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 314 просмотров
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 94 просмотра
0

ответов
SQL

+1 ещё

Простой
Как объединить 2 таблицы обращаясь к одному и тому же полю 2 раза?
- 1 подписчик
- 08 сент.
- 195 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 437 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 212 просмотров
1

ответ
Показать ещё Загружается…

Администратор баз данных/DBA (MSSQL + PostgreSQL)

Outlines Tech

До 235 000 ₽

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Answer 1 · 2020-01-21 23:02:21

начни с такого

также проще все это уникальное переносить в новые таблицы, а эти пусть пухнут и архив ежегодно

Answer 2 · 2020-01-23 21:02:42

Зависит от ценности этой информации. Если эту схему рассматривать как историю - то ничего удалять не надо. Просто перепишите ваши отчоты чтоб они делали GROUP BY и DISTINCT и просто игнорировали дубли.

Если вы - владелец этой системы и данных - то вы вправе поставить любой констрейнт уникальности так чтобы дубль в принципе невозможно было всунуть. Но это вопрос не технический а организационный.

Удалять - советчиков много. Но все они - безотвественные и если вам не стоит слушать советов по чистке данных именно здесь в тостере то вы рискуете какраз потерять нужные данные.

Как грамотно удалять дублирующиеся строки/связи в базе данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт