Берете из своей системы кусок кода. Код должен быть либо с "запахом"(см. "Чистый код" Роберт Р. Мартин) либо не в полном объеме решать Вашу задачу.
Пускай у нас будет какой-то модуль системы, который должен одновременно обрабатывать 1 млн. запросов от юзеров. Когда этот модуль изначально писался, рассчитывали на 100 тыс, и на этой отметке он отрабатывает за 2,3 сек, однако, с ростом нагрузки время его работы стало более 30 секунд.
Задача и критерий оценки - переработать этот кусок кода так, чтобы на 1,5 млн запросов от юзеров этот код отрабатывал за минимальное время, которое ниже чем текущее.
При обращении любого из участников в ФАС, Вы сможете достать кусок кода того исполнителя, с которым Вы подписали контракт и показать и проверяющим и обиженному участнику, что его решение не является лучшим из тех, которые были получены в результате проведения тендера, чем и обусловлено Ваше решение не в его пользу.
Предвижу вопрос, а что делать если результаты всех участников приблизительно одинаковы(диапазон разброса не более 10%)? Для этого в своей оценочной задаче Вы должны предусмотреть второй/третий/четвертый и т.д. критерии оценки.
Ставьте вменяемый количественный показатель, который можно измерить: время исполнения при заданной нагрузке, количество строк кода, набор используемых технологий, опыт членов команды и т.п.