Только хардкор, только разработка собственных метрик, классификация тестовых данных на группы. Экспертная оценка данных людьми, сравнение результата с экспертной оценкой, сравнение полученных метрик с предыдущим и лучшим результатом, отдельно для каждого набора данных и для класса. При этом фреймворк должен мочь пересчитать все метрики для предыдущих версий по новому алгоритму, потому, что систему оценки качества будете регулярно допиливать. Попытка свести оценку к бинарному виду выдаст "среднюю температуру по больнице". Я почти уверен, что вы не найдете готового решения, слишком нетипичная задача для массового решения. По крайней мере, я в свое время не нашел.