В любой задаче МL и в задачах распознавании визуальных образов в разных интерпретациях, при отсутствии размеченных данных теоретически существует два пути:
1. Самостоятельно, вручную разметить данные. Наверняка вам известно, что ручная разметка данных - сегодня это целое направления бизнеса. И многие фирмы (особенно преуспели в этом китайцы) зарабатывают на этом миллионы. Т.е. вы им ваш набор данных, они вам - его разметку. Погуглите, найдете куда обращаться.
2. Использовать методы кластеризации, результаты которой вам дадут перечень классов объектов (в вашем случае - уникальных участников) и разнесут ваш датасет по этим классам. Вот только сами эти алгоритмы кластеризации могут оказаться сложнее той задачи классификации, которую вы перед собой ставите. В случае объектов-лиц - на порядок сложнее. Причем качество такой кластеризации - достаточно низкое, на много ниже, чем качество ручной разметки. Что в свою очередь еще более снизит качество решения вашей основной задачи классификации объектов. Но зато - без китайцев :)
Вот как-то так.
А вариант решения - выбирать вам.