Почему архиваторы не эффективно сжимают одинаковые файлы?

Question

van000 @van000

Почему архиваторы не эффективно сжимают одинаковые файлы?

При попытке сжать большие (~2Гб) файлы. Это backup postgresql базы данных, его делаю так: pg_dump -F c -b -U postgres -f 1 MyDB), но для чистоты эксперимента я взял 2 одинаковых.

[user@comp test_compress]$ md5sum 1 2 
8b6582a7fa0250692c9c0e1747878aa1  1
8b6582a7fa0250692c9c0e1747878aa1  2

[user@comp test_compress]$ du -sh *
1,8G	1
1,8G	2

При добавление их в архив tar:
[user@comp test_compress]$ tar -cf all.tar 1 2
и последующего сжатия (пробовал gzip, xz и bzip2) размер не уменьшается (ожидал увидеть 1.8, но не как не 3.5, ведь фалы одинаковые)

[user@comp test_compress]$ du -sh all*
3,6G	all.tar
3,6G	all.tar.bz2
3,5G	all.tar.gz
3,5G	all.tar.xz

В чем причина, и как можно эффективного сжимать близкие по содержимому большие файлы?

Вопрос задан более трёх лет назад
719 просмотров

19 комментариев

Подписаться 4 Средний 19 комментариев

Adamos @Adamos

Вместо полного бэкапа делать инкрементный и не надеяться на сообразительность архиваторов, которые реально не предусматривают повторения данных через пару гиг потока.

Написано более трёх лет назад
Valentin Barbolin @dronmaxman

Если так?
tar -zcf all.tar.gz 1 2

Написано более трёх лет назад
Melkij @Melkij

мимоходом хочу обратить внимание, что pg_dump -F c сжат сам по себе.

Написано более трёх лет назад
mayton2019 @mayton2019

Melkij, это похоже правильный ответ. Я сделаю +1. Положи в ответы.

Написано более трёх лет назад
van000 @van000 Автор вопроса

Adamos, это все понятно и если бы стояла остро проблема нехватки места, можно было бы пересмотреть стратегию организации рез. копирования. Но места предостаточно и сама база не очень большая, поэтому смысла делать инкрементный бэкап не вижу.

Меня больше интересуют инструменты которые могут проиндексировать большие фалы и эффективно их сжать. Сейчас попробовал git-lfs на одинаковых файлах но хорошо справился, но на немного отличающихся уже нет.

Вот мне и интересно, может кто-то уже задавался этим вопросом, и имеется опыт.

Написано более трёх лет назад
Adamos @Adamos

van000, этот вопрос называется "дедупликация данных". Если интересно - гуглите.
Есть даже файловые системы, которые этим занимаются, и архиватор не потребуется.

Написано более трёх лет назад
pfg21 @pfg21

van000, самое эффективная дедупликация больших бекапов с небольшим отличием - инкрементальный бекап :)
инкремент аккурат и вычисляет разницу между двумя версиями данных и формирует четкий дифф, при этом качественно разбирая структуру данных.

Написано более трёх лет назад
chupasaurus @chupasaurus

Adamos, Потребуются возвратно-поступательные упражнения с этими ФС.

Написано более трёх лет назад
Adamos @Adamos

chupasaurus, ну, у ТС как раз бодро стоит вопрос.

Написано более трёх лет назад
chupasaurus @chupasaurus

Adamos,
места предостаточно и сама база не очень большая
не сказал бы

Написано более трёх лет назад
shurshur @shurshur

van000, в данном случае большая ошибка считать, что архиватор реально вычисляет повторения. На самом деле нет.

Архиватор, с некоторой долей условности, смотрит в ближайшем потоке данные, определяет, какие из них "повторяются", и заменяет данные на словарь плюс ссылки на этот словарь. При "хороших" данных такая замена становится заметно короче исходных данных, при не очень хороших - ну хоть не больше... Но чтобы это работало на двух гигабайтных файлов, архиватор должен положить весь этот огромный гигабайтный файл в словарь, чего он делать, конечно же, не будет.

Написано более трёх лет назад
freeExec @freeExec

shurshur, ну почему же, надо просто использовать архиваторы, которые позволяют указать размеры словарей. Тот же 7Z позволяет (судя по гуишной оболочке) задать размер словаря в 1.5Гб

Написано более трёх лет назад
Adamos @Adamos

freeExec, и уронить VPS-ку, на которой вы захотите распаковать этот архив? ;)

Написано более трёх лет назад
freeExec @freeExec

Adamos, и что? важно же сжатие, за это надо платить памятью.

Написано более трёх лет назад
Adamos @Adamos

freeExec, особенно если ее физически нет.

Написано более трёх лет назад
mayton2019 @mayton2019

В чем причина, и как можно эффективного сжимать близкие по содержимому большие файлы?

Несколько лет назад я интересовался таким подходом. Взять два бэкапа БД и выявив различия в блоках сделать - некое сжатие на основе дедупликации.

Пробовал утилиты наподобие bsdiff
bsdiff: usage: bsdiff oldfile newfile patchfile
но они работают очень медленно т.к. расчитаны не на бэкапы баз а на изготовление бинарных патчей к
приложениям. Например там поправить 2 байтика в exe-шнике размером 50 Мб - это как раз самое то.

Попробуйте может вам способ подойдет. Но мне кажется что bsdiff не знает с чем имеет дело и поэтому
работает на уровне байтов хотя для бэкапов Postgres можно было искать различия на уровне 4-К страничек
или что-то в этом роде.

Опять-же такая природа может быть характерна для PG датафайлов но никак не для сжатых дампов. После
сжатия подобная блочная структура будет уничтожена.

Поэтому в идеале нужно делать копию дата-файлов. Потом блочый bsdiff. И только потом сжатие дельты
и сжатие первой копии.

Написано более трёх лет назад
shurshur @shurshur

freeExec, я в жизни неоднократно забивал/подбивал гвозди или выкручивал шурупы пассатижами, но это же слегка неправильный способ использования инструмента, да?

А в задаче автора эти гигантские словари ещё и не помогут, так как вряд ли эти полтора гига будут одинаковыми каждый день до байтика. А если даже да, то проще уж тогда считать md5 архива и вместо очередного бэкапа класть текстовый readme.txt "сегодня ничего не поменялось".

И вообще, тут правильно говорят, что инкрементальные бэкапы будут намного более эффективными для задачи автора, я уж не говорю о том, что они могут добавить практической пользы сами по себе.

Написано более трёх лет назад
d'Ivan @2ord

Melkij,

pg_dump -F c сжат сам по себе
каким алгоритмом сжатия? Gzip?

Написано более трёх лет назад
Melkij @Melkij

Román Mirilaczvili, zlib

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Учебный центр IBS

QPT PostgreSQL 16. Оптимизация запросов

1 неделя

Далее
Skillfactory

Профессия C++ разработчик

11 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

d'Ivan @2ord

Для примера:

pg_dump -Ft $POSTGRES_DB -U postgres | zbackup <опции> backup /path/to/zbackup/repo/backups/<любое имя папки>/pg.dump-`date '+%Y-%m-%d'`.tar.zbk

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Почему не рабоатет npx prisma generate?
- 1 подписчик
- 10 часов назад
- 38 просмотров
1

ответ
Windows

+1 ещё

Средний
Работа PostgreSQL на процессорах с гетерогенной архитектурой под Windows?
- 2 подписчика
- 29 нояб.
- 283 просмотра
3

ответа
Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 340 просмотров
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 216 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 207 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 252 просмотра
2

ответа
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 110 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 230 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 152 просмотра
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 138 просмотров
1

ответ
Показать ещё Загружается…

Специалист технической поддержки Oracle Database и PostgreSQL

Омега • Москва

от 90 000 до 120 000 ₽

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

Senior Golang Developer

SMALL

от 280 000 до 350 000 ₽

Вместо полного бэкапа делать инкрементный и не надеяться на сообразительность архиваторов, которые реально не предусматривают повторения данных через пару гиг потока.
мимоходом хочу обратить внимание, что pg_dump -F c сжат сам по себе.
Melkij, это похоже правильный ответ. Я сделаю +1. Положи в ответы.
Adamos, это все понятно и если бы стояла остро проблема нехватки места, можно было бы пересмотреть стратегию организации рез. копирования. Но места предостаточно и сама база не очень большая, поэтому смысла делать инкрементный бэкап не вижу.

Меня больше интересуют инструменты которые могут проиндексировать большие фалы и эффективно их сжать. Сейчас попробовал git-lfs на одинаковых файлах но хорошо справился, но на немного отличающихся уже нет.

Вот мне и интересно, может кто-то уже задавался этим вопросом, и имеется опыт.
van000, этот вопрос называется "дедупликация данных". Если интересно - гуглите.
Есть даже файловые системы, которые этим занимаются, и архиватор не потребуется.
van000, самое эффективная дедупликация больших бекапов с небольшим отличием - инкрементальный бекап :)
инкремент аккурат и вычисляет разницу между двумя версиями данных и формирует четкий дифф, при этом качественно разбирая структуру данных.
Adamos, Потребуются возвратно-поступательные упражнения с этими ФС.
chupasaurus, ну, у ТС как раз бодро стоит вопрос.
Adamos,
места предостаточно и сама база не очень большая
не сказал бы
van000, в данном случае большая ошибка считать, что архиватор реально вычисляет повторения. На самом деле нет.

Архиватор, с некоторой долей условности, смотрит в ближайшем потоке данные, определяет, какие из них "повторяются", и заменяет данные на словарь плюс ссылки на этот словарь. При "хороших" данных такая замена становится заметно короче исходных данных, при не очень хороших - ну хоть не больше... Но чтобы это работало на двух гигабайтных файлов, архиватор должен положить весь этот огромный гигабайтный файл в словарь, чего он делать, конечно же, не будет.
shurshur, ну почему же, надо просто использовать архиваторы, которые позволяют указать размеры словарей. Тот же 7Z позволяет (судя по гуишной оболочке) задать размер словаря в 1.5Гб
freeExec, и уронить VPS-ку, на которой вы захотите распаковать этот архив? ;)
Adamos, и что? важно же сжатие, за это надо платить памятью.
freeExec, особенно если ее физически нет.
В чем причина, и как можно эффективного сжимать близкие по содержимому большие файлы?

Несколько лет назад я интересовался таким подходом. Взять два бэкапа БД и выявив различия в блоках сделать - некое сжатие на основе дедупликации.

Пробовал утилиты наподобие bsdiff
bsdiff: usage: bsdiff oldfile newfile patchfile
но они работают очень медленно т.к. расчитаны не на бэкапы баз а на изготовление бинарных патчей к
приложениям. Например там поправить 2 байтика в exe-шнике размером 50 Мб - это как раз самое то.

Попробуйте может вам способ подойдет. Но мне кажется что bsdiff не знает с чем имеет дело и поэтому
работает на уровне байтов хотя для бэкапов Postgres можно было искать различия на уровне 4-К страничек
или что-то в этом роде.

Опять-же такая природа может быть характерна для PG датафайлов но никак не для сжатых дампов. После
сжатия подобная блочная структура будет уничтожена.

Поэтому в идеале нужно делать копию дата-файлов. Потом блочый bsdiff. И только потом сжатие дельты
и сжатие первой копии.
freeExec, я в жизни неоднократно забивал/подбивал гвозди или выкручивал шурупы пассатижами, но это же слегка неправильный способ использования инструмента, да?

А в задаче автора эти гигантские словари ещё и не помогут, так как вряд ли эти полтора гига будут одинаковыми каждый день до байтика. А если даже да, то проще уж тогда считать md5 архива и вместо очередного бэкапа класть текстовый readme.txt "сегодня ничего не поменялось".

И вообще, тут правильно говорят, что инкрементальные бэкапы будут намного более эффективными для задачи автора, я уж не говорю о том, что они могут добавить практической пользы сами по себе.
Melkij,

pg_dump -F c сжат сам по себе
каким алгоритмом сжатия? Gzip?

Answer 1 · 2022-11-21 12:27:34

Хотите эффективно сжать бэкап - делайте не -Fc (который кое-как сжат сам по себе - поэтому и ваши архиваторы не осилили), а -Fp - и натравливайте на получившееся что-нибудь типа xz -9.

Answer 2 · 2022-11-21 16:41:51

Попробуйте программы для создания бэкапов. Обычно они дедуплицируют данные и сжимают их.

На пример zbackup на хвод принимает tar и сохраняет в своей директории пожатые данные.
borgbackup немного хуже сжимает, но предоставляет доступ к отдельным файлам, без распаковки всего бэкапа. Также сохраняет в своей директории.

Answer 3 · 2022-11-23 11:52:09

Как архиватор поймёт, что это одинаковые куски? Ему нужно для этого проанализировать все частичные совпадения вплоть до 1.8 гигабайт, что совершенно неэффективно. Словарь для элементов такого размера построить не представляется возможным.

Если бы вы не обладали воспоминанием, как именно вы создали этот тар, вы бы тоже ни в жизнь не заметили, что он состоит из двух одинаковых половин.

Почему архиваторы не эффективно сжимают одинаковые файлы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт