Как часто дохнут диски? RAID1 это выход спасение или иллюзия?
В пути ко мне платформа supermicro 5018D-mtf (1U сервер с 4 корзинами горячей замены) + ЦП Xeon E3-1240v3 + 32GB памяти. Уже сейчас есть две пары почти не пользованных дисков: 2 x WD30EFRX и 2 x WD1002FAEX. Планирую сделать два массива RAID1(зеркало) из этих винтов.
На WD1002FAEX планирую vSphere 6 и 3 ВМ с windows server 2012r2 (отдельно для dc, dns, dhcp, и сервера антивируса, отдельно для файловой помойки, и отдельно для 1с с постгрессом) + 2 ВМ с CentOS под астериск и заббикс.
Сейчас все это на 5 старых системных блоках с Athlon II x3 455 и фактически системники простаивают - нагрузка никакая, всего 50 пользователей, 7 бухгалтеров.
На WD30EFRX будут складываться бекапы файловой помойки(в общей сумме 400гигабайт помойки, и дампы баз 1с (7 баз от 100 до 450 мегабайт).
На моей памяти за последние 15 лет у меня умирали винчестеры дважды: первый раз в 2001 году IBM 20Гб застучал через полгода после покупки, второй раз в 2008 году сдохли оба винта из одного массива RAID1 с разницей в несколко часов. В первом случае спасло то, что винт был новым и копия документов осталась на старом квантуме на 800МБ, а во втором случае бекапы делались на те же самые винты которые сдохли (не моя вина - я там на саппорте сидел, потом только сменил админа).
Так вот, в чем суть вопроса: как часто в наше время дохнут современные дорогие винты и является ли иллюзией что RAID1 - это сдох винт, заменил и все работает.
Добавлю что RAID1 спасение.
+ Сервисы не останавливаются, пользователи продолжают получать свою информацию. Бизнес работает.
+ У администратора есть время устранить проблему без суеты.
Бегающий по офису админ вызывает смех. :)
Azazel PW: Да, но все дело в ситуации.
Иногда на сервере работает куча народа, рядом дежурит админ, любая остановка сервера вызывает критичный сбой в работе и потерю денег - тут конечно нужен RAID1
Иногда на сервере работает не сильно много народу, админа нет, его вызывают в случае проблем, перебой в работе неприятен, но не критичен - тут уже можно подумать, -а нужен ли рэйд?
АртемЪ: тогда это не "сервер", а десктоп. Что есть "сервер" ? тот же компьютер с повышенной отказоустойчивостью. С дублированием, резервированием. Если вы собрали просто комп, и воткнули туда почтовый сервис. Разумно ли это называть "сервер" ?
Вы просто предоставляете сервис с обычного компа, да у вас там крутятся серверные задачи.
Но при любом чихе, при любом отказе оборудования. Ваш сервис становится недоступным на время замены.
Мое личное определения сервера, компьютер который предоставляет доступ к своим сервисам 24/7/365.
Azazel PW: да. Это как запасной парашют админа. Тоже предлагал его сделать в офисе. Но средствами винды, через управление дисками. Пожалели деньги на новый диск. Будут бекапы
Ну вот представьте ситуацию - работает 5-10 бухгалтеров с сервером, накрылся диск.
Насколько это критично? Как правило это неприятно, но не критично. Т.е вызвали админа, как правило при таких масштабах штатного админа нет, админ поменял диск, восстановил из бэкапа, или из теневой копии, и все работают дальше. Ну разве что придется заново вбить документы за последние полчаса- час.
Т.е это неприятность, но маловероятная, и больших проблем не доставит. Да из за банального отключения электричества простои больше бывают.
Поэтому ставить рэйд излишне, достаточно бэкапов.
Другое дело если на сервере работают 5-50продажников, которые постоянно оформляют продажи.
Десятиминутный перебой в работе это уже огромная проблема - клиенты торопятся, матерятся.
Даже 10минут простоя это гарантированные убытки, потеря клиентов, спад продаж.
Т.е в данной ситуации необходима бесперебойная работа, поэтому обязателен зеркальный рэйд, резервное питание, на случай отключения энергии (вторая линия или дизель в подвале), и админ который будет постоянно мониторить ситуацию, и оперативно реагировать.
АртемЪ: у меня на каждом workstation поднят sshd. Теперь у меня не тонкие клиенты, а сервера :)
Себе в послужной список запишу, администрировал SSH сервера.
У меня прям целая ферма Серверов, сервер на сервере.
Софистикой занимаешься.
Если опирается на данные из Вики, тогда будь добр прочитать статью полностью, а не удобные отрывки.
Надёжность
Ресурсы
Производительность
Масштабируемость
Не важных сервисов не бывает.
Если сделал сервис и отдал его в продакшн, будь добр чтобы он работал. Или не делай его вообще.
Ну или рассматривай такую возможность, что есть зарплата важная, а есть неважная. Вот важную тебе заплатят всегда, а ну может быть когда нибуть.
Azazel PW: У вас какой то очень узкий взгляд на вещи. Почему вы решили что каждый сервер должен работать 24/7/365 ?
Я одно время поднимал и администрировал сервер с аптаймом порядка 2%. Он работал чуть более четырех суток в году. Нагрузка была приличная в рабочее время, но кроме этих четырех дней он нафиг никому был не нужен. Поэтому поднят был на амазоне - отработал, выключили.
И что теперь его сервером не считать? Типа рабочая станция?
Требования к аптайму сервера и доступности сервисов всегда зависят от задач. И их всегда нужно соизмерять с задачами.
Если делаете сервер с аптаймом 99,9% - это дорого, потому что аптайм не обеспечивается одним рэйдом. Тут уже встают задачи об обеспечении бесперебойного питания, да и ломаются как показывает практика не только диски, а и куча другого оборудования.
Зачем небольшой фирме файловый сервер гарантированно работающий 24/7/365, если они им пользуются только по 8 часов в рабочие дни? И зачем им платить за рэйд если небольшой перебой в работе для них не критичен?
Поэтому скажу так - Если сделал сервис и отдал его в продакшн, будь добр чтобы он работал в соответствии с техзаданием заказчика, и обеспечивал приемлемую для заказчика стабильность и доступность. И не более того.
И да, согласен - не важных серверов не бывает. Важен даже сервер на котором крутится 1с и файлопомойка для двух бухгалтеров. Только вот требования к его доступности допускают простой в районе суток. А финансирование не позволяет тратить деньги на ненужные вещи.
Винты дело такое, некоторые работают годами, некоторые выходят из строя партиями.
По закону подлости, быть уверенным в том какой винт достанется вам - нельзя.
Имхо все RAID'ы это лишь иллюзия безопасности, к тому же часто снижающая итоговую производительность системы. Лично я, имея бы два диска, один вставил бы в сервер, а второй в NAS, стоящий где нибудь в другом тоже надежном месте, и правильно настроил резервное копирование.
Итого, ежедневные резервные копирования конечно занимают систему, но это ночью. А днем имеем более высокую производительность отдельностоящего диска. Вот и вся, на мой взгляд, механика...
Вы не правы - рэйд это не иллюзия безопасности. Рэйд вообще не имеет никакого отношения к безопасности.
Рэйд нужен чтобы работа не останавливалась.
Если вы можете позволить себе остановить сервер на полчаса, поменять диск и восстановиться из бэкапа, то рейд вам не нужен.
АртемЪ: А вы наверное правы, даже неважно что рэйд состоит из более чем 2 дисков, мне как правило попадались "рассыпавшиеся" рэйды, из которых обескураженные владельцы, со словами "ну как же так, ведь избыточность, ведь должно быть надежно", хотели восстановить базу или "хоть что-то". Потому я и считаю, что в основном это просто иллюзия безопасности.
Alejandro: Еще раз повторю рэйд к безопасности отношения не имеет.
Неважно какой у вас рэйд, сколько в нем дисков, и вообще есть ли рэйд - шанс потерять информацию от этого не меняется.
Рэйд обеспечивает именно бесперебойность, т.е его ставят чтобы не было простоя в работе.
Без рэйда у вас диск рассыпется и сервер остановитсья, а рэйд от этого защищает. Т.е при неисправности диска сервер будет продолжать работать.
АртемЪ: Мне попадаются (не единожды) именно рассыпавшиеся рэйды, что говорит о том, что в вашем утверждении что-то не так... Почему выход из строя всего одного диска, мог привести к краху рейда из более чем 2 (например 4) дисков? Потому что рэйд был программным?
Alejandro: Я не пойму при чем тут выход из строя диска, и рассыпавшиеся рэйды?
Я говорю совсем о другом - рэйд не обеспечивает безопасность данных.
Рэйд обеспечивает бесперебойную работу.
АртемЪ: При том, что на практике часто "вышедший из строя диск" = "рассыпавшийся рэйд".
Ок, так и запишем с ваших слов, что рэйд - это вовсе нечто ненужное, потому что оно не выполняет банальной функции бэкапа (хотя два отдельных hdd эту функцию легко выполняют), да еще и часто замедляют работу =)
Alejandro: Нет, рэйд это очень нужная вещь, когда нужно обеспечить бесперебойную работу.
Или повысить линейную скорость.
В остальных случаях они бесполезны.
raid1 - спасение, если это mdadm, и если за ним следят - диски меняют при первых ошибках чтения-записи, диски меняют ночью (при синке действительно всё будет тормозить), периодически пересинкивают, чтобы проверить поверхность дисков.
С аппаратными рейдами проблем много.
Я бы не сказал, что там надежность 100% (бэкапов никто не отменял), но она близка к 99,9+. Чтобы сломать raid1 нужно быть либо идиотом, либо криворуким, либо поймать крайне редкий баг в ядре и не суметь после этого собрать данные с отдельных дисков.
Время жизни винтов зависти от их ТТХ, и интенсивности их использования. В Вашем случае, полагаю, что они могут прожить спокойно и до 5 лет и больше. Но все зависит от нагрузки.
RAID1 - один из вариантов решения. который имеет свои достоитства и недостатки. Но точно не иллюзия, а рабочее решение. При отказе винта контроллер сам скажет, что он отказал и требует замены. Заменил - дождался репликации и все работает.
На моей истории есть только один случай, когда во время восстановления RAID5 умер еще один винт. Но это скорее исключение из правил.
В разрезе вашего количества дисков это 50 на 50 либо сдохнут либо не сдохнут.
Рейд 1 это средство повышения доступности но не хранения данных, про надежность это бекапы.