Ответы пользователя по тегу Хранение данных
  • Какой из способов создания оффлайн биткоин-кошелька самый безопасный?

    mayton2019
    @mayton2019
    Bigdata Engineer
    У меня возникал аналогичный вопрос но не в части кошельков а в сервисах двухфакторной автентификации для мобил. Вот потеряю допустим телефон. Какова процедура восстановления? Это головняк. Даже чтоб восстанавливать что-то их бэкапа - надо себя идентифицировать или предьявлять мастер-пароли которые очень длинные.

    К слову я ничего не придумал. Немного замкнутый круг получается. Самый простой и надеждый способ - все таки использовать мнемонические фразы из стандартного bip39. Эти фразы выжечь у себя татуировкой на руке или блин заказать себе жетон на шею с гравировкой. Или как Киану Ривзу прошить в мозг под гипнозом. Вобщем нужно такое хранилище чтоб.... ну короче лучше сейфа и бумагами я пока ничего не придумал. Звучит смешно но бумага оказывается надежнее чем жесткие диски сидюки и кассеты стриммера.

    Археологи подтвердят.
    Ответ написан
    Комментировать
  • Как испровить медленный запрос к базе данных?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Из быстрых советов - проверь что Subdivision_ID проиндексирован.
    Ответ написан
    Комментировать
  • Можно ли использовать внешний накопитель для установки программ?

    mayton2019
    @mayton2019
    Bigdata Engineer
    По поводу NTFS/ExFat - для самих приложений ничего особо не меняется. Ну я не знаю приложений
    которые-бы как-то были завязаны на эти свойства. Это может для админов безопасности там важно.

    Хорошая ли это идея. Тут надо рассмотреть опции. Я часто смотрю кино с портативного диска. Иногда
    кошка может прыгнуть на системник. Пошатать что-то и диск может отмонтироваться. Бывает. Но с кино ничего не происходит. Доступ read-only. Кошку выгнал. Диск подключил и смотрю себе дальше. А что с приложениями?
    Дело в том что когда программист пишет код с I/O - он считает что диск всегда доступен. Совсем всегда.
    И ситуация когда диск вдруг отьехал - катастрофична. Может ли ОС работать когда диск c: отключился?
    Скорее нет чем да. Вобщем отсутсвие диска - катастрофа для приложений. И особенно для приложений
    которые в этот момент что-то сохраняли на диск - это отложенная катастрофа. Вы последствия
    почувстуете после следующего запуска. В противоположность - сеть. Она изначально проектируется
    как опционально-доступная и все программы при обработке сетевых ошибок используют ретрай-логику.
    Тоесть просто ждут и повторяют операции. Толерантны к сбоям.

    В противоположность I/O ошибки записи - нихрена не толерантны. Это сразу выпадение программы в ОС
    с сообщением "я не шмогла!". Это не относится ко всем программам а просто к большинству. К 80%
    программ если хотите.

    Вобщем все зависит от класса I/O операций ваших приложений. Если это как просмотр фильмов - то можно.
    Если это КАК postgres с журналом - то есть риск получить полностью поломанную файловую системую и
    неработающие приложения. Как работают ваши секвенсоры и плагины? Часто они делают запись?
    Насколько запись критична для работы "здесь и сейчас"? Что будет если их структуры данных
    для записи оказались записаны "наполовину"? Вот это вопросы на которые вы должны ответить.

    Если хотите более надежные внешние диски - подключайте SATA-диск через внутренний карман на корпусе.
    Ответ написан
    Комментировать
  • Какой жесткий диск выбрать для бэкапов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Два диска это хорошо. Пиши на них по очереди. Четные бекапы - на один. Нечетные на другой.

    Данные нужно разделить на классы надежности хранения. Например видеофайл спокойно переживает
    повреждение 1 битика внутри внутри видеопотока. На воспроизведении будет небольшой артифакт для одного кадра либо вообще ты ничего не заметишь. Тоесть видеопоток - восстанавливается.

    Хуже с архивами бинарей. Многие форматы (наподобие zip, gzip) полностью повреждаются начиная со сбойного
    участка. Тоесть могут оказаться полностью негодные. Я обычно такие файлы (бэкапы данных) оборачиваю кодами
    восстановления. Для linux это утилита par2 а для Windows - я не знаю. Надо искать. Но возможно какая-то комбинация ключей в WinRAR даст такой-же эффект надо поискать. Что на Маке я тоже невкурсе.
    Ответ написан
  • Как сделать своё облако для хранения копий файлов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Если исходники хранит - то наверное git подходит.

    Если фильмы и музыку - то наверное надо другой подход обсудить. Вобщем ты мало информации сказал.
    Ответ написан
  • Файловая система на диске без разделов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    В вопросе звучат два вопроса.
    1) Нормально ли использовать primary partitions вместо extended. Ответ - да нормально.
    2) Как под Windows прочитать этот раздел. Моё имхо - лучше этого не делать. Если вам
    нужен какой-то обмен данными - то лучше отформатируйте под Fat32 например.
    Или вообще откажитесь от использования Windows и пользуйтесь Linux-файловыми
    системами без ограничений. В противном случае ситуация выглядит как некое необоснованное
    "чудачество" автора.
    Ответ написан
    1 комментарий
  • Какая БД позволяет использовать структуру множественной связи (дерево связано с деревьями)?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Посмотри графовые бд: Neo4j (например).
    Покрывает все твои потребности.
    Ответ написан
    2 комментария
  • Какие есть альтернативы базам данных?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Альтернатив - миллионы. Есть библиотеки которые предоставляют доступ к файлам наподобие баз данных. Это LevelDb например.

    Но обсуждать этот вопрос глубоко - нет смысла т.к. неясны требования к твоей системе хранения.

    Если тебе достаточно файлов (csv, json, xml) то ради бога! Храни в файлах. Это будет очень даже
    экономно с точки зрения TCO и никакой админ не нужен. А вот когда ты будешь гонять запросы
    по файлам и тебе понадобится индексирование, транзакции и изоляция - вот с этого момента
    можно обуждать всякие dbms или системы на файлах.
    Ответ написан
    4 комментария
  • Какая программа для резервного копирования хранит версии копий файлов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Таких программ много. Это средства версионного контроля например git. Сделай git init в каталоге и делай каждый раз новый commit при резервном копировании. Для перемотки назад можно использовать стандартный git checkout с указанием хеша коммита или комменатрия или любого другого поискового признака которы ты знаешь как владелец бэкапа.

    Беря во внимание что git все таки больше предназначен для текста чем для бинарей возможно в его использовании есть какие-то нюансы. Но я с ними не сталкивался пока. Можно еще почитать про git LFS https://git-lfs.github.com/

    Версионирование бекапов также встроено в файловую систему XFS. Там есть утилиты для dump/restore. Но мне их подход не очень понравился. Хлопотно.

    UPD: Да еще. Забыл. Версионирование ФС (настоящее) точно встроено в докер overlay-fs. Но как им воспользоваться в случае автора я пока не знаю. Может знающие - подскажут.
    Ответ написан
    Комментировать
  • Что быстрее: json или sqlite?

    mayton2019
    @mayton2019
    Bigdata Engineer
    извлечь и записать в словарь набор данных json, или извлечь тот же набор данных из БД sqlite

    Я не знаю кто вам подает такие формулировки. Возможно вы сидите на митингах и слушаете трёп разработчиков и здесь спрашиваете. Но данный вопрос с точки зрения инфо-технологий звучит как : "что лучше желтое или квадратное".

    При такой подаче вопроса ответа нет и не может быть. Эти понятие - несравнимы. Уточните что вы хотите. Потому что домыслы и медвежьи услуги которые вам сейчас оказывает форум могут стать хуже чем открытое вредительство.

    Я вас прошу.
    Ответ написан
    Комментировать
  • Как системы поддерживают сохранность данных в blockchain?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Для контроля целостности всего блокчейна используется другая структура данных - Дерево Меркла. Она обычно хранится рядом с блоками и закрепляет контрольные суммы для всех блоков сразу. На вершине дерева стоит главная контрольная сумма которая закрепляет всю известную историю блоков. Поэтому проверить расхождение двух хранилищ очень просто. Достаточно обратиться к дереву. Так-же просто понять где чейн оборвался и очень просто понять как его восстановить и продолжить дальше реплицировать.
    Ответ написан
    Комментировать
  • Как (правильно) шифровать данные и хранить ключи на облачном сервисе?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Обычно облачный провайдер продает не только виртуалки и хранилища но еще и сервисы безопасного хранения ключей. Например для Microsoft Azure - это KeyVault https://azure.microsoft.com/en-us/services/key-vault/

    Для amazon - это KMS https://aws.amazon.com/kms/

    Берите и используйте.
    Ответ написан
    2 комментария
  • Что лучше всего использовать при работе с данными?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Сразу ремарка. Большие данные предполагают такой кейс что они не влезают в ваш ноутбук.
    Это некая стартовая точка от которой вопрос интересно изучать. Если влезли - значит данные не большие.
    Обычная БД. Я рекомендую установить вам локально Postgres или MySQL и загружать туда все что надо
    и там делать любые анализы. Если данные полу-структурированы - то попробуйте использвать spark-shell.
    Это позволяет обработать логи, текстовые файлы, json-lines e.t.c. Настройка spark-shell потребует
    от вас определенных знаний Java. По крайней мере в части памяти.

    Есть явно легаси инструменты которые были созданы во времена Hadoop. Их много.
    - sqoop, hadoop, hdfs. Ими тоже можно пользоваться но по перформансу они уже
    слабее чем например spark.

    Если ваши данные уже в облаке - то вы будете сильно ограничены в инструментах. Обычно амазон
    предлагает свой aws-cli + UI. Microsoft - az.

    И отдельно DataBricks предлагает консольные тулы dbfs/databricks. Но пользоваться ими не очень удобно.
    По крайней мере в том виде как они есть сегодня. Я пользуюсь их web-версией UI.
    Ответ написан
    Комментировать
  • Какой язык лучше выбрать для ETL процессов?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Язык здесь не особо важен. ETL это настолько широкое понятие что там нужно
    просто подняться на 2 уровня выше и смотреть решения которые есть.

    Microsoft предлагает решение под названием https://adf.azure.com/en/ Azure Data Factory.

    Данная платформа поддерживает много языков. Ну Scala/Python/SQL/R точно работают. Databricks кластер
    просто является одной из фич данной платформы.
    Ответ написан
    Комментировать
  • В каком 2d-коде можно сохранить 4КБ информации?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Посмотри вот в этой табличке https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B0%D...

    По теме. Я думаю что тебе не стоит думать в таких категориях. Все равно хорошую игру в 2К ты не втолкаешь. Шахматы в 5К втолкнули ну и что? Это слабые шахматы. Если у тебя есть хорошая игра то лучше положить ее в хостинг и в QR код добавить просто ссылку.
    Ответ написан
    Комментировать
  • Как ограничить копирование данных из сетевых папок, локального ПК, на флешки и внешние ресурсы?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Есть коробочное решение. Работа только на удаленных десктопах. Clean room. Ограниченный десктоп. Там только одно приложение. Это собственно клиент к удалённому. На десктопах демонтированы все usb слоты.
    Ответ написан
    Комментировать
  • Хранение множества мелких и средних файлов, как оптимально: файловая система или база данных?

    mayton2019
    @mayton2019
    Bigdata Engineer
    (файлы будут в zip архиве и архивы размером от 5 КБ до 250кб, изредка 1-2 мб)?


    Да здесь файловая система будет лучше. Zip-архив для БД будет все равно балластом. Движки БД обычно не способны загядывать внутрь сложного архива-блоба. Поэтому фаза вычитывания и распаковки все равно будет. А если такой фазы нет - то тогда и БД выглядит ненужным балластом. Ведь ее суммарная стоимость владения (TCO) всегда выше чем у файловой системы.

    Очень зрелой выглядит идея использования облачных файловых систем (Amazon S3, Azure Blob Storage) но тут надо смотреть просто в цены и в удобство поисковых операций. Например S3 вобщем то является скорее хеш-таблицей на диске чем файловой системой. Поэтому группировать файлы в фолдеры для листинга будет так себе идея. Вообще эти ФС строго расчитаны на знание path. В идеале если ваше приложение изначально знает формулу как path формируется.

    Хранить готовые файлы на сервере хочу из-за скорости. Мне кажется, что гораздо быстрее повторно скачать уже сформированный файл который хранится на сервере, чем каждый раз при скачивании файла 1. отправлять запрос к базе данных с фильтрами 2. на основе отфильтрованных данных сформировать CSV файл(ы)

    Верное направление мысли. Почитай еще как NGinx работает с атрибутами ETag, If-Modified-Since. Это потребует изменения логики клиента, но результат будет более оптимизированный чем просто даже с кешом.
    Ответ написан
    3 комментария
  • Зачем нужна база данных если можно хранить данные в json файлах?

    mayton2019
    @mayton2019
    Bigdata Engineer
    movchans ваша фраза (заголовок вопроса) просто выдает в вас неопытного разработчика который еще с базой не работал.

    MongoDb помимо хранения json файлов (на самом деле внутри она хранит bson) предлагает опции масштабирования (можно поднимать несколько нодов одной базы) и командную строку запросов. Кроме того можно создавать индексы, по разным полям документа - это коробочная фича Mongo.

    И я даже не знаю сколько у вас уйдет времени на то чтобы просто повторить этот функционал. Даже атомарная работа с документами. Если вы не опытный разработчик - то работая с файлами вы наделаете таких дел что ойойй. Я готов даже спорить на коньяк что наделаете. Интуиция такая вот.

    По остальным пунктам что написал Roman Kitaev я полностью согласен.
    Ответ написан
    Комментировать
  • Будет ли у меня доступ к зашифрованным файлам при установке жесткого диска в другой пк?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Я-бы сделал бекап всех шифрованных файлов на любой внешний носитель.

    Честно не помню что будет после переноса. Но где-то в недрах doc.microsoft.com есть описанная процедура миграции. И она должна включать в себя опцию чего делать с зашифрованными данными.
    Ответ написан
    Комментировать
  • Какие существуют бесплатные базы данных?

    mayton2019
    @mayton2019
    Bigdata Engineer
    Для заметок база данных не нужна.

    Я использую git для заметок и когда надо синхронизировать десктоп и ноутбук - делаю соотв pull/push.

    Всё что бесплатное - либо действует 30-60 дней пробного периода. Кроме того никак не помогает вам в решение технических issues. Бесплатный пользователь облаков - это бета-тестер. Не обижайтесь если внезапно версия обновиться без вашего ведома. Чтоб не было сюрпризов вобщем.
    Ответ написан
    1 комментарий