piromanlynx
@piromanlynx
Системный администратор в Perfect Solutions

Xen 4.1, падение fs с виртуалками вызывает падения при обращении к корню. как объяснить?

Ситуация следующая: Есть офисный сервер с xen (debian). Произошел троекратный сбой по питанию. После первого сбоя развалился raid5 (на котором виртуалки), но развалился не совсем — остался в режиме readwrite и начал медленно ресинхронизироватся. После второго сбоя побилась сама fs на этом рейде (ext3, data=ordered). После третьего сбоя по питанию (во время ресинхронизации рейда) fs перестала монтировался.


Вобщем стабилизировали питание, ресинхронизировали raid5, прогнали fsck по этой fs и по корню (на всякий случай). В корне ошибок не было, в этой fs все что были исправлены. Перезапустились.


После перезапуска начали происходить странные вещи: Если не запускать виртуалки — система работает как часы. А после запуска виртуалок система славливает ошибки по диску (в этой fs с виртуалками). Так вот после 3-4 ошибок в этой fs, ошибки начинают сыпатся при обращении и к корневой файловой системе.

Например, делаем:

# apt-cache search linux-image

— падает (внутри ядра) и обрывает выполнение apt-cache

И так почти с большинством бинариков: apt-*, xm, dd, aptitude…


Странно то что если перезагрузится и не запускать виртуалки — снова всё работает как часы.


В системе 2 raid5 (по разделам sda1+sdb1+sdc1 и sda2+sdb2+sdc2 на 3х дисках SATA)


Система: Linux lynx 3.2.0-4-amd64 #1 SMP Mon Jul 23 02:45:17 UTC 2012 x86_64 GNU/Linux


В чем может быть подвох? Что может провацировать ошибки при работе с другой fs и как это можно поличить?
  • Вопрос задан
  • 3114 просмотров
Решения вопроса 1
piromanlynx
@piromanlynx Автор вопроса
Системный администратор в Perfect Solutions
Нашел свой же старый вопрос и напишу ответ. Единственная причина такого поведения была в том что из за предшествующих перебоев в питании начались проблемы электрического кахарктера в одном из HDD. Это выносило мозг SATA контроллеру и он вел себя неадекватно. Заменили винт и теперь не используем те контроллеры, новые берем Adaptec у них таких проблем нет.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
xanf
@xanf
JS разработчик / владелец небольшой компании
Я ловил подобные проблемы из-за проблем с памятью. Есть возможность прогнать memtest на сервере?
Какое сообщение об ошибке (интереснее всего dmesg)?
Ответ написан
J_o_k_e_R
@J_o_k_e_R
Присоединяюсь к запросу сообщения об ошибке.

Правильно я понимаю, что вся система расположена на двух рейдах? Корень на одном, виртуалки на другом? Возможно перебои питания убили ту часть диска(ов), на которой расположены виртуалки так, что при попытке доступа туда, контроллер жесткого диска сходит с ума и начинает выдавать ошибки вообще, в т.ч. и на нормальной части диска(ов).

У Вас же уже есть запасной жесткий диск после такой аварии? Если нет, это очень опрометчиво. Срочно приобретайте и подменяйте по одному «боевые» диски и каждый из них сканируйте теми же badblocks.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы