Сомневаюсь, что можно сформулировать универсальный математический критерий. Для каждой задачи будет свой, эмпирический. А если критерий эмпирический — то единственный способ оценки — эталонные изображения.
Я бы посоветовал делать так: напишите алгоритм, который генерирует картинки, приблизительно похожие на те, что надо обрабатывать. При этом пусть он сохраняет эталонную форму границ для каждой генерированной картинки. После чего заполняет их шумом и прочим мусором. Потом пускаете ваши алгоритмы выделения и смотрите насколько полученное изображение совпадает с эталонным.
Мы, когда в своё время один алгоритм настраивали, большую базу обработали в ручную, отметив все границы, которые алгоритм должен был ловить(поиск глаз). А потом прогоняли алгоритм по всей базе и смотрели сколько где он справился, оценивали его эффективность.