Если делаем бэкап какой-то виртуалки, большая часть бэкапа - будут стандартные файлы, вроде /bin/ls итд. Одинаковые на миллионах систем (и даже в пределах компании они одинаковые на многих машинах).
Напрашивается решение - минимизировать архивы. Смотрим каждый файл, берем его хеш, и как-то централизованно проверяем. Если этот хеш встречается много раз - просто удаляем этот файл из архива (помечая, что в том месте был файл с таким-то хешем). При распаковке заполняем эти хеши настоящими файлами (например, выкачивая их из сервиса по хешу, или, например, скачивая .deb где есть файл с этим хешем).
Есть ли какой-то софт или сервис для этого?
P.S.
Да, иногда можно обойтись инкрементальными бэкапами чтобы частично решить эту проблему, или использовать LXC overlayfs для виртуалок. Но интересует именно решение на уровне архивов.
update:
сделал свой велосипед - утилита
hashget для простой дедупликации.
Статья на хабре:
Сократить бэкапы на 99.5% с hashget