1. Unity тут не нужно, и это даже будет избыточным.
2. Берёшь Apple ARKit / Google ARCore, чтобы накладывать оживлённую картинку поверх обычной.
3. Далее, чтобы как-то сопоставить картинку с "оживлённой" у тебя три варианта:
а - добавлять какую-то рамку вокруг картинки и в неё кодировать какой-нибудь уникальный идентификатор, к которому привязывать "оживлённую"
б - Добавлять какие-то скрытые маркеры в саму картинку
в - Вычленять какие-то ключевые точки/паттерны из самой картинки и использовать их как идентификатор (например лица людей)
Уже есть готовые решения для такого (гугли live photo ar)