Имеются ли общие гайды по созданию моделей данных (ERD) для Data Quality?
Или общих подходов по созданию моделей данных для Data Quality нет модель данных (ERD) разрабатывается исходя из общих принципов?
Погуглил, но так и не нашёл примеры ER-диаграмм для целей Data Quality.
Не знаю каким боком ERD связано с DataQuality. Но на одной лекции я слышал что для оценки качества данных используют "ящики с усами" (box-and-whisker) и по ним смотрят выбросы. Ящик строится для каждой колонки отдельно.
Реляционная диаграмма здесь скорее всего непричем. Статистика и маш-обучение оперирует обычно одной таблицей где есть всё.
Данные поступают нам ежедневно батчами. Соответственно, ежедневно запускается код, отрабатывающий Data Quality. Результаты работы этого кода складываются в какую-то БД. Затем, на данных из этой БД мы можем построить разные таблички или нарисовать разные графики.
Так вот, вопрос как раз про схему такой БД.
Иван Мельников, у вас - очень специфичная задача. Сомнительно что кто-то будет базируясь на quality делать стандарты. Тоже самое что практически никто не стандартизировал CRM, ERP и прочее. Ну я не видел ни разу чтоб схема следовала какому-то стандарту.
Делайте своё. Вы его лучше соптимизируете. Даже допустим там будет key-value, где value - JSON документ - то все равно будет хорошо.