Приветствую. Скажу сразу — я не гуру админ, я могу поставить софт и как-то базово настроить сервер, но не более.
Вчера мой VPS у Хетцнер внезапно упал.
Сервер перестал отдавать http, ftp\ssh — не коннектится. Пинг не пингует. Т.е. сложилось ощущение что сервер просто отключился. В роботе статус «работает».
Ткнул в роботе «рестарт», получил ошибку:
> The server details could not be determined due to an internal error.
> Please contact our support team by using the contact form on the support page.
Написал в саппорт, в это время ткнул еще несколько раз «выкл» и «вкл», в роботе то выдавалась вышеописанная ошибка, то говорилось что все ок, но при этом сервер также был в дауне.
Зашел в консоль аварийную и увидел там следующее:
Gave up waiting for root device. Common problems:
— Boot args (cat /proc/cmdline)
— Check rootdelay= (did the system wait long enaught?)
— Check root= (did the system wait for the right device?)
— Missing modules (cat /proc/modules; ls /dev)
ALERT! /dev/disk/by-uuid/fa3736c9-9aef-45ed-82c5-8f0814a8f399 does not exist. Dropping to shell!
BusyBox… blah blah blah
(initramfs).
Пока я добрался до консоли и погуглил что написано саппорт ответил мол «зайдите в консоль, там кажется сервер не может загрузиться».
Ответил мол вижу уже, но понятия не имею что с этим делать, помогите плиз. Сам сел гуглить. Саппорт в это время ушел домой, он работает до 18 по Германии.
После гуглежки я сделал:
blkid
Посмотрел на гуиды дисков. Тот гуид что был в алерте был в списке как sda3.
Затем я попытался примаунтить sda3 в root чтобы посмотреть что вообще с разделом случилось, в итоге консоль висела минут 15 и я решил еще раз нажать в роботе «выкл», затем я включил сервер и он загрузился как ни в чем не бывало.
В логах сервера вообще ничего. Т.е. все записи обрываются на 16:10, затем два с половиной часа простоя и загрузка сервера. Никакой подозрительно активности за вчерашний день. Сегодня переписка с саппортом. Их точка зрения — ничего не было и все работает.
Я же пытаюсь понять что это, черт побери, было. Прошу совета — что могло вызвать потерю диска? В какую вообще сторону можно копать?
2. Активируйте resque system той версии которая была установлена
3. Запустите web консоль, вкладка vServer. Если консоль запустилась пошлите команду cntrl+alt+del,
если нет — то рестартаните ваш вирутальный сервер питанием.
4. После запуска resque системы можно подключиться к серверу в том числе по ssh. Ваш клиент будет ругаться на подмену ssh ключей, игнорируйте!
В смысле перегрев или бракованный винт? Диск виртуальный ведь — vps у меня. Если бы проблема была с железкой, то это затронуло бы множество юзеров и врятли бы хетцнер отмалчивался «ничего не знаем».
Никак инициировать проверку у них я не могу — могу проверить только на своей стороне. Поэтому и вопрос у меня такой — что может теоретически вызвать потерю диска, если я не трогал сервер уже неделю или больше, и на нем стоит обычный lamp набор + почта.
Hetzner использует KVM: QA8713. Умиляет всё же комментарий про настройки openvz. За три года сходных проблем не было, но причина в кривых настройках (в чем же еще?) openvz, которого вообще нет. Это пять!