Максимально эффективный способ бэкапа кучи мелких файлов?
Есть директории с файлами: 910 тысяч файлов, объемом около 30 ГБ в сумме, большинство файлов мелкие в пару Кб.
В нее периодически в ту или иную часть вносятся изменения (файлы меняются транзакционно).
Есть необходимость некоторое время хранить архивные версии файлов и иметь к ним доступ по состоянию на какой-то конкретный момент к набору файлов или к срезу всего дерева файлов на момент времени.
Как максимально эффективно решить подобную задачу?
GavriKos, у Гита проблемы как с большими файлами так и с кучей мелких, с мелкими файлами проблема в том что пухнет индекс и операции его записи при изменении также слегка расстраивает, плюс не знаем сколько файлов будет изменятся, в результате если будет перезаписывать мы сотня тысяч файлов то бд с историей тоже скажет фииии :)
В общем идея имеет шанс но очень аккуратно :)
GavriKos, Согласен, гит красиво вписывается в это, но к сожалению он о другом. :)
Вон АртемЪ сразу задал правильный вопрос но уточнений мы так и не видим, так что все мегокрутые способы оставим в тайне :D
sanchower, так нет тут секретов, есть банальное:
Много файлов, хранить нужно срез, значит резервные копии будут делаться не раз/два в день а допустим каждый час, значит полные бэкапы это не вариант, значит дифференциальные + полная раз в сутки или или снапшоты файловой системой, но на сколько критично потеря скорости чтения/записи? А фиг его знает, вы не сказал :)
Опять-же, даже на дифф бэкап может уходить много времени ибо файлов дофига, а значит встаёт вопрос о требуемых временных рамках а значит к производительности дисковой подсистеме.
Бэкапы необходимо куда-то сливать, в этот момент просядет пропускная способность как дисковой системы (рид) так и сетевой, значит необходимо понять какая ширина канала, будет ли отдельный канал (интерфейс) в сторону хранилища или это вообще будет рядом стоящая СХД.
В общем, в данный момент, на вопрос можно только ответить - диф или снапшоты :)
П.С. Резервные копии и архивы - разные вещи.
Архив это в основном полные бэкапа (допустим суточные) валяющиеся где-то в холодном хранилище, а резервные копии это какраз ото всё гаряченькое для быстрого восстановления.
В архивы лезут когда уже всё, писец, откатываемся на сутки назад.