Дедупликация в системе хранения архивов, или система архивации с дедупликацией. У меня например пара десятков VHD тестовых windows виртуалок лежит на небольшом SSD. И работают шустро ибо SSD и умещаются на диск который значительно меньше суммы размеров этих VHD.
Но интересует именно решение на уровне архивов
Пример архиватора -
zpaq Кроме собственно банального сжатия - дедупликация, поддержка удаленных архивов.
Если этот хеш встречается много раз - просто удаляем этот файл из архива (помечая, что в том месте был файл с таким-то хешем).
То что вы описали называется файловая дедупликация. Вещь известная давно, но малоэффективная и никому не нужная.
Сейчас используется блочная дедупликация - дедуплицируются чанки небольшого размера, не зависимо от принадлежности к файлу.