Ответы пользователя по тегу Резервное копирование
  • Как проверить 500 000 файлов word,exel,pdf ,txt что они не битые?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я-бы поделил файлы word,exel,pdf ,txt на группы.

    1) Aрхивы docx, xlsx. Как выше заметил один джентльмен их можно проверить любой
    утилитой которая умеет читать zip и делать zip -t (test) с выводом статуса в errorlevel.
    Автоматизировать можно либо bash либо python скриптом.

    Если архив целый (контрольные суммы совпали) то и документ почти 100% не поврежден.

    2) Офисные документы старого формата (doc/xls). Здесь я-бы парсил их через apache POI
    (это java библиотека). Это разработка. Но простая. На 1 story point. Я думаю
    любой первокурсник напишет.

    3) Adobe документы. Масса вариантов. Есть автоматизация с помощью bash/python
    и консольными тулзами. Я перечислю тулзы которые есть под линукс и которые читают
    pdf.

    - pdfimages
    - pdfextract
    - pdftoppm

    Напомню что почти все они должны в случае неуспеха генерировать статус код не нулевой.
    Это будет критерий проверки.

    4) Прочие текстовые документы. Неструктурированные. Я тут честно не знаю как их проверять.
    Но допустим если они содержат текст в кодировке win-1251 то любой криптохакер
    с cryptohack вам быстро напишет скриптик
    для проверки что гистограмма или биграмма
    соотвествует примерно тексту и национальным признакам. Если файл будет в нулях
    или в рандомном шуме то какой-то критерий не сработает. Здесь надо подумать
    и просто глазами посмотреть на эти документы. Возможно большая часть из них
    это бланки - и тогда надо чекать наличие просто каких-то шаблонов.
    Ответ написан
    2 комментария
  • Чем делать резервное копирование?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Несколько мыслей.

    Копировать рабочие станции - это впустую тратить дисковое пространство. Имеет смысл изучить ценную
    информацию на десктопах и копировать их точечно. Например - копировать только Мои Документы.
    И только файлы определенной сигнатуры.

    Настройки приложений - по максимуму вынести в домен-контроллер. В идеале все настройки должны там
    быть.

    Сам процесс копирования не имеет смысла без тестов восстановления.
    Ответ написан
    2 комментария
  • На сколько безопасно дедуплицировать бэкапы?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Боюсь что процесс дедупликации будет требовать ресурсов гораздо больше чем сам backup.

    Попробуй сам подумать какая асимптоматика будет у алгоритма поиска в одном файле фрагментов другого
    файла.

    Из коробочных инструментов есть fdupes. Я им пользовался когда надо искать в большом архиве pdf
    документов такие-же документы дубли или фолдеры-дубли. Но fdupes просто ставит более простую
    задачу. Ищет полное совпадение всех файлов со всеми. Вот. А если ты будешь играться с дифференциальными
    или прочими бэкапами то сложность твоей задачи еще более вырастает.
    Ответ написан
    4 комментария
  • На чем сейчас (локально) принято хранить долговременные данные (бэкапы)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Лет 10 назад можно было на барахолках купить стриммеры HP. А кассет было много на предприятиях. Некоторые впоследствии на радиорынках продавались еще в нераспечатанном виде. Производитель лент гарантировал что-то вроде 15 лет хранения информации (при условиях правильной температуры и влажности). Это - самые длительные сроки что я видел. Размер касеты у них кажется был 20-40Гб.

    Еще Verbatim продвигал какие-то особо прочные DVD+R диски с алмазным покрытием. А по объему кажется это были 4.7G Надо посмотреть я не помню точно. Вобщем надо искать + еще покупать пищущее устройство.
    А сейчас даже ноуты продают уже без DVD привода.

    Я у себя дома храню на двух HDD дисках серии WD-Green. Конечно непонятно что делать если от времени сгорает
    контроллер но вроде как 2 сразу в один день не должны сгореть.
    Ответ написан
    2 комментария
  • Как устроить кеширование облака на VPS?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Идея регулируемого тарифа заложена например в AWS S3 хранилище. Там вы для старых файлов можете просто задать атрибут storage class и указать более жлобские модели хранения вплоть до ленточного архива. Но установкой атрибута класса хранения вы будете сами управлять.

    Очень сильно стоит вопрос определения "старости файлов". Я-бы учитывал частоту доступа за период. К пример кто-то может интересоваться старыми проектными файлами и алгоритм балансировки должен это как-то учитывать.

    И внешнаяя ссылка на файл вообще не должна изменяться.
    Ответ написан
    3 комментария
  • Какой жесткий диск выбрать для бэкапов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Два диска это хорошо. Пиши на них по очереди. Четные бекапы - на один. Нечетные на другой.

    Данные нужно разделить на классы надежности хранения. Например видеофайл спокойно переживает
    повреждение 1 битика внутри внутри видеопотока. На воспроизведении будет небольшой артифакт для одного кадра либо вообще ты ничего не заметишь. Тоесть видеопоток - восстанавливается.

    Хуже с архивами бинарей. Многие форматы (наподобие zip, gzip) полностью повреждаются начиная со сбойного
    участка. Тоесть могут оказаться полностью негодные. Я обычно такие файлы (бэкапы данных) оборачиваю кодами
    восстановления. Для linux это утилита par2 а для Windows - я не знаю. Надо искать. Но возможно какая-то комбинация ключей в WinRAR даст такой-же эффект надо поискать. Что на Маке я тоже невкурсе.
    Ответ написан
  • Как сделать своё облако для хранения копий файлов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Если исходники хранит - то наверное git подходит.

    Если фильмы и музыку - то наверное надо другой подход обсудить. Вобщем ты мало информации сказал.
    Ответ написан
  • Бэкап Linux (Fedora)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Хочу при помощи tar сохранить все конфиги, но метаюсь между выбором директории home и ~/.config

    Дык тебе не надо метаться. Тем более что никто не сможет ответить нужен ли тебе home целиком или нет.
    Если места достаточно то бэкапть все что можно.

    Но проблемы бэкапа только начинаются после того как он сделан. Ты разверни виртуалку и попробуй потом восстановить все конфиги (и приложения!!) с этого бэкапа. Я гарантирую сюрпризы.

    Вобщем пробуй сам. Для бэкапа всех поддиректорий с точечками - можно написать скрипт. Но проблема
    не в этом на самом деле.
    Ответ написан
    Комментировать
  • Как поставить пароль на архив tar/gzip?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Tar и gzip это очень старые утилиты. Им по 30-40 лет. И создавались они в те времена когда симметричное шифрование еще не было так развито.

    Но архивчик можно после упаковки зашифровать другими утилитами например openssl.
    openssl enc -in file.txt -out encypted_file.txt -e -aes256

    Я так делал когда шифровал бекапы oracle dbms.

    Если переписать чуть лучше скрипт - то можно объединить операции tar->gzip->openssl в один пайплайн
    без воздания промежуточных файлов.
    Ответ написан
    3 комментария
  • Как грамотней настроить на обычном хостинге создание копии сайта и залив изменений?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Насколько я понимаю - нужно вначале на основе сделать гит и из него разворачивать, а как быть с созданием копии бд?

    Посмотрите на liquibase и flyway. Они спецом создавались чтобы обновления на базу катились через git.
    Ответ написан
    Комментировать
  • Прошу совета, как мне можно улучшить/модернизировать резервное копирование (бесплатными средствами)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я думаю что в организации никто не одобрит твои улучшения. А если ты хочешь сказать что система бэкапа плохая - то объяви о том что проводишь учебную тревогу с имитацией полного процесса восстановления. Проведи. Запиши протокол. Что. Как. Какие баги.
    Ответ написан
  • Какая программа для резервного копирования хранит версии копий файлов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Таких программ много. Это средства версионного контроля например git. Сделай git init в каталоге и делай каждый раз новый commit при резервном копировании. Для перемотки назад можно использовать стандартный git checkout с указанием хеша коммита или комменатрия или любого другого поискового признака которы ты знаешь как владелец бэкапа.

    Беря во внимание что git все таки больше предназначен для текста чем для бинарей возможно в его использовании есть какие-то нюансы. Но я с ними не сталкивался пока. Можно еще почитать про git LFS https://git-lfs.github.com/

    Версионирование бекапов также встроено в файловую систему XFS. Там есть утилиты для dump/restore. Но мне их подход не очень понравился. Хлопотно.

    UPD: Да еще. Забыл. Версионирование ФС (настоящее) точно встроено в докер overlay-fs. Но как им воспользоваться в случае автора я пока не знаю. Может знающие - подскажут.
    Ответ написан
    Комментировать
  • Как настроить резервное копирование серверов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Был в десятке разных компаний. У всех - по разному.
    Бэкап это по большей части организационный вопрос. Главное что в этом топике вам никто правильно не ответит.

    Нужно спрашивать ваш бизнес о требованиях к базе. Например:

    1) Как долго бизнес согласен ждать восстановления? Это влияет например на стратегию делания инкрементальных кумулятивных и полных бэкапов для БД. Разумеется все БД - в режиме arhivelog/wal.
    2) От чего мы страхуемся? От физических повреждений. Или еще нужно предохранится от неверно поставленного обновления на базу. Тут - надо прикупить дополнительных дисков или магнитных накопителей.

    Самое главное что у вас должны быть учебные тревоги. Тоесть вы должны реально откатать бэкап+восстановление хотя-бы несколько раз. Иначе то что вы делаете будет фейком. Часто видел такое. Бэкап делает какой-то сисадмин средствами Акрониса например. Но этот сисадмин и понятия не имеет как работает Oracle и что вообще нужно предварительно подготовить чтоб бэкапные файлы не стали ненужным балластом.
    Ответ написан
    Комментировать
  • Как реализовать инкрементный + full backup linux?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Правильно выше пишут. Технически tar+cron решает эту задачу. И обычно самое простое решение - самое надежное. Если "хочется отслеживать" - то это уже другая задача. И она не имеет прямого отношения к бэкапу. Тоесть вопрос состоит из двух независимых частей. Собственно бэкап. И какой-то мониторинг который должен ... что то мониторить.
    Ответ написан