xenon
@xenon
Too drunk to fsck

Как сократить бэкап (90% — файлы дистрибутива)?

Если делаем бэкап какой-то виртуалки, большая часть бэкапа - будут стандартные файлы, вроде /bin/ls итд. Одинаковые на миллионах систем (и даже в пределах компании они одинаковые на многих машинах).

Напрашивается решение - минимизировать архивы. Смотрим каждый файл, берем его хеш, и как-то централизованно проверяем. Если этот хеш встречается много раз - просто удаляем этот файл из архива (помечая, что в том месте был файл с таким-то хешем). При распаковке заполняем эти хеши настоящими файлами (например, выкачивая их из сервиса по хешу, или, например, скачивая .deb где есть файл с этим хешем).

Есть ли какой-то софт или сервис для этого?

P.S.
Да, иногда можно обойтись инкрементальными бэкапами чтобы частично решить эту проблему, или использовать LXC overlayfs для виртуалок. Но интересует именно решение на уровне архивов.

update:
сделал свой велосипед - утилита hashget для простой дедупликации.
Статья на хабре: Сократить бэкапы на 99.5% с hashget
  • Вопрос задан
  • 203 просмотра
Пригласить эксперта
Ответы на вопрос 4
Jump
@Jump Куратор тега Резервное копирование
Системный администратор со стажем.
Дедупликация в системе хранения архивов, или система архивации с дедупликацией. У меня например пара десятков VHD тестовых windows виртуалок лежит на небольшом SSD. И работают шустро ибо SSD и умещаются на диск который значительно меньше суммы размеров этих VHD.

Но интересует именно решение на уровне архивов
Пример архиватора - zpaq Кроме собственно банального сжатия - дедупликация, поддержка удаленных архивов.

Если этот хеш встречается много раз - просто удаляем этот файл из архива (помечая, что в том месте был файл с таким-то хешем).
То что вы описали называется файловая дедупликация. Вещь известная давно, но малоэффективная и никому не нужная.
Сейчас используется блочная дедупликация - дедуплицируются чанки небольшого размера, не зависимо от принадлежности к файлу.
Ответ написан
@Ambrosian
Дифференциальный бэкап.
Ответ написан
@Tabletko
никого не трогаю, починяю примус
Full-diff-inc на уровне бекапа. Но это не учитывает другие бекапы. Тут вам поможет дедупликация, но с ней нужно быть осторожно.
Ответ написан
CityCat4
@CityCat4
//COPY01 EXEC PGM=IEBGENER
Если говорить о бэкапе скажем виртуалок - то мне очень понравилась Nakivo Backup. Дедупликацию делает средствами гипера, первый бэкап ессно полный, все остальные (ну, как настроишь) - инкрементные. Умеет только виртуалки.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы