Мне кажется, что дебаг вариант от релиза должен отличаться не тестами, а генерацией логов по каждому чиху, в зависимости от его уровня, а тесты должны быть одинаковы, ну и выводить или нет «тестовый fps».
А тестам должно быть без разницы, релиз это или дебаг, и если тест валится — это кейс для разбирательства «где косяк?», и если не валится, значит всё ок. Ну и собственно, студия имеет интересную настройку — не пускать сборку в TFS, если код не компилится корректно