Странно. Похоже, что "много статей" вы просмотрели, но не изучали? Или как?
"как сказать программе, что листик дерева - это листок, а не что-то другое?" - вы про первоначальную разметку что-либо слышали? Вот так и сказать - сидят 20 тысяч китайцев и размечают вручную рисуночки - "вот это листик, а вот это цветочек, а вот это автомобильчик, а вот это песик" и заносят эту информацию в базу данных вместе с картинкой. Потом на этом размеченном датасете проводят обучение алгоритма распознавания, а уж потом он начинает работать на новых, неведомых ему ранее рисунках.
Другое дело, что есть более "продвинутые методы разметки", но во первых, их применение очень ограничено, а вот вторых - вы же спрашиваете про основы. А они вот такие, как я описал.