• Какой алгоритм предпочитаете для проверки целостности данных/файлов?

    @wcyb Автор вопроса
    Karpion, да, проблема наличия коллизий на бесконечных вариациях данных неизбежна, но речь о простых/исторически распространенных алгоритмах хеширования, где можно сломать/подменить файл и хэш при этом будет таким же.
    если есть 2 разных файла, даже если они называются/выглядят одинаково (скажем ./qwe/rty.zip и ./rty.zip), и имеют одинаковые размеры и хэши, то тут проблемы нет
  • Какой алгоритм предпочитаете для проверки целостности данных/файлов?

    @wcyb Автор вопроса
    АртемЪ, не учли контекст, речь о том, когда файлы одинаковые по размеру, разные по содержанию и имеют равные хэши
    хотя исправлю, можно понять неправильно
  • Какой алгоритм предпочитаете для проверки целостности данных/файлов?

    @wcyb Автор вопроса
    Да, знаю что коллизией. Ну речь о более простых и по историческим причинам распространенных криптографических способах. Я думаю, если на практике (на примере казино и подобного) кто-то и додумается подбирать такие коллизии к чему то посложнее, то он догадается не выдавать себя)
  • Какой алгоритм предпочитаете для проверки целостности данных/файлов?

    @wcyb Автор вопроса
    GavriKos, вероятность можно не считать, может хватить несколько часов, но нет, шапочки у меня нет) на практике меня волнует только тот факт, что файл будет поврежден
  • Какой алгоритм предпочитаете для проверки целостности данных/файлов?

    @wcyb Автор вопроса
    GavriKos, на данный момент (на примере md5) сломанный файл будет иметь тот же размер и тот же md5 хэш, и файл действительно может даже работать, но в угоду зловреду. Про вероятность что такое может случиться с кем-то наверно можно согласиться, но лучше подстраховаться, в голове иногда порождаются разные мысли от прогресса, и то что раньше казалось излишней паранойей уже и не кажется такой глупостью
  • Какой алгоритм предпочитаете для проверки целостности данных/файлов?

    @wcyb Автор вопроса
    Я вот все чаще стал корить себя, что не использую несколько хэшей. Что используете для хеширования (утилиту), если не секрет? И как храните, каждый тип хэша в отдельном файле или все в один файл? В отдельных файлах конечно логичнее и зависит конечно уже от возможностей утилиты, но все же
  • Какой алгоритм предпочитаете для проверки целостности данных/файлов?

    @wcyb Автор вопроса
    И то и другое: от случайных повреждений и зловреда в любом виде (человек/программа)
    Для меня 2 разных файла одинакового размера с одинаковым хэшем равносильно сломанному файлу
    Да, рассматриваю только криптографические
  • Организация хранения большого количества небольших файлов в нескольких контейнерах с одной точкой монтирования. Как?

    @wcyb Автор вопроса
    zpaq это дедупликатор и архиватор в одном флаконе. Умеет как дедупликацию так и сжатие.
    У него есть очень полезная штука для организации бэкапов - файл индексов.
    Т.е вы можете сделать первый бэкап, залить его в облако, а локально оставить только индекс.
    В результате вам не нужно хранить весь бэкап локально, можно частями сливать в облако и удалять локальные бэкапы. Для работы нужен только небольшой индексный файл, где хранятся хэши всех блоков в архиве

    Исчерпывающе, как раз хотел уточнить это. Спасибо, буду использовать
  • Организация хранения большого количества небольших файлов в нескольких контейнерах с одной точкой монтирования. Как?

    @wcyb Автор вопроса
    Да, для "архивных"/маловажных файлов использую такой сценарий без локального хранения
  • Организация хранения большого количества небольших файлов в нескольких контейнерах с одной точкой монтирования. Как?

    @wcyb Автор вопроса
    Думаю все проблемы из-за того что бэкап идет сразу в облако

    Все верно поняли + бекапятся они как есть, без запаковки

    Ну и такой момент - я не знаю как rclone работает. Что будет если вы переместите 10 файлов общим размером 30мегабайт из одной папки в другую? Он 30мегабайт в архив загонит, или нет?

    Тут проблема больше в самих облаках, а не в инструментах. Какие то облачные хранилища позволяют/предоставляют нужные api, какие-то нет. У rclone грубо говоря отдельные конфиги под каждый поддерживаемый облачный диск, и исходя из того с каким облачным диском производится работа, такой и будет функционал. На примере перемещения: если облако поддерживает перемещение (предоставляет такую возможность), то 10 файлов будут просто перемещены на стороне сервера, иначе будет удаление и перезалив в новую папку

    А вы уверены что облачное хранилище куда вы грузите в принципе способен принимать файлы с большей скоростью?

    Да, и на прием и на отдачу, проблема вот только с аудио - это получается самые мелкие файлы и самое большое количество из всего что заливается в облако, более мелкие файлы (документы, исходники и др) бекаплю архивами

    Попробуйте zpaq. На файлах такого размера вполне неплохо себя показывает.
    У вас там дубли в коллекции есть?

    Дублей нет, про zpaq понял, если хранить не в открытом виде, то вполне интересная штука, и на независимые блоки делит как понял

    Обычно гораздо быстрее сделать бэкап на локальный диск, а потом залить его в облако.
    А так - он у вас будет мелкими порциями в облако закидывать, скорость просядет.

    Если заливать эти файлы по расписанию без паковки как есть, то с локального бекапа в облако они же будут загружаться так же долго. Нет, резон в локальном бекапе конечно есть (и в плане отслеживания изменений и в плане скорости), и для себя считаю что он обязателен, но пока так как есть (как обычно, на что-то сейчас есть ресурсы и выделяются, на что-то пока нет)
  • Организация хранения большого количества небольших файлов в нескольких контейнерах с одной точкой монтирования. Как?

    @wcyb Автор вопроса
    Да никак.
    Во первых контейнеров с такими характеристиками не существует.

    Когда начал задумываться над вопросом для себя ответил точно также, поэтому решил завести вопрос здесь

    Контейнеры тут ничем не помогут.

    Почему же? Загружать/скачивать и сверять 2000 небольших файлов или один контейнер с этими файлами

    С файлами без контейнеров работать проще и быстрее.

    Понимаю, с такими же мыслями бекапил напрямую, но сейчас готов пожертвовать локальной скоростью ради сетевой

    Чем бэкапите?

    rclone