1. Определить для себя что ты понимаешь под похожестью. В комментарии верное подмечено.
2. Закодировать изображения в тензорное представления.
3. Сравнивать дистанции между двумя тензорами евклидова дистанция, cosine similarity и т.д.
Сейчас даже базы есть, я такую использовал в проекте недавно (chroma db), которые оптимизируют поиск ближайшей дистанции по изображениям / текстам. То есть пишешь запрос входной эмбединг а он тебе выдает запись с наименьшей дистанцией, к данному эмбедингу.