Xen 4.1, падение fs с виртуалками вызывает падения при обращении к корню. как объяснить?

Question

Михаил Конюхов @piromanlynx

Системный администратор в Perfect Solutions

Xen 4.1, падение fs с виртуалками вызывает падения при обращении к корню. как объяснить?

Ситуация следующая: Есть офисный сервер с xen (debian). Произошел троекратный сбой по питанию. После первого сбоя развалился raid5 (на котором виртуалки), но развалился не совсем — остался в режиме readwrite и начал медленно ресинхронизироватся. После второго сбоя побилась сама fs на этом рейде (ext3, data=ordered). После третьего сбоя по питанию (во время ресинхронизации рейда) fs перестала монтировался.

Вобщем стабилизировали питание, ресинхронизировали raid5, прогнали fsck по этой fs и по корню (на всякий случай). В корне ошибок не было, в этой fs все что были исправлены. Перезапустились.

После перезапуска начали происходить странные вещи: Если не запускать виртуалки — система работает как часы. А после запуска виртуалок система славливает ошибки по диску (в этой fs с виртуалками). Так вот после 3-4 ошибок в этой fs, ошибки начинают сыпатся при обращении и к корневой файловой системе.

Например, делаем:

# apt-cache search linux-image

— падает (внутри ядра) и обрывает выполнение apt-cache

И так почти с большинством бинариков: apt-*, xm, dd, aptitude…

Странно то что если перезагрузится и не запускать виртуалки — снова всё работает как часы.

В системе 2 raid5 (по разделам sda1+sdb1+sdc1 и sda2+sdb2+sdc2 на 3х дисках SATA)

Система: Linux lynx 3.2.0-4-amd64 #1 SMP Mon Jul 23 02:45:17 UTC 2012 x86_64 GNU/Linux

В чем может быть подвох? Что может провацировать ошибки при работе с другой fs и как это можно поличить?

Вопрос задан более трёх лет назад
3115 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Linux для робототехников

3 месяца

Далее
Stepik

Основы Linux

2 недели

Далее
Учебный центр IBS

AL-1801 ОС Astra Linux Special Edition 1.8 для пользователей

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+3 ещё

Простой
Настройка трёх сетевых карт Debian systemd-networkd?
- 1 подписчик
- 6 часов назад
- 89 просмотров
1

ответ
Windows

+1 ещё

Простой
Как защитить программный Raid-1 от перестроения?
- 2 подписчика
- 06 дек.
- 251 просмотр
2

ответа
Linux

+1 ещё

Простой
Не работает apt update && apt upgrade в Kali Linux. Что делать?
- 2 подписчика
- 04 дек.
- 427 просмотров
2

ответа
Linux

+1 ещё

Простой
На чем практиковаться начинающему админу?
- 3 подписчика
- 30 нояб.
- 1015 просмотров
3

ответа
RAID

+1 ещё

Простой
Как обойти ограничение с отсутствием суперконденсатора?
- 1 подписчик
- 29 нояб.
- 131 просмотр
1

ответ
Linux

+2 ещё

Простой
В shinobi отображаются видео только за 24 часа, как увидеть все?
- 3 подписчика
- 27 нояб.
- 229 просмотров
0

ответов
Linux

+1 ещё

Средний
Почему не монтируются сетевые шары при VPN?
- 3 подписчика
- 23 нояб.
- 829 просмотров
1

ответ
Linux

+2 ещё

Средний
StrongSwan IKEv2/IPSec и fail2ban, как правильно настроить?
- 2 подписчика
- 22 нояб.
- 502 просмотра
0

ответов
Linux

+2 ещё

Простой
Какие подходящие характеристики для VPN?
- 1 подписчик
- 19 нояб.
- 1138 просмотров
3

ответа
Linux

Сложный
Как вылечить инфокиоск?
- 2 подписчика
- 19 нояб.
- 519 просмотров
1

ответ
Показать ещё Загружается…

Специалист первой линии технической поддержки

Петрович-Тех

До 52 882 ₽

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Answer 1 · 2017-03-26 12:31:01

Нашел свой же старый вопрос и напишу ответ. Единственная причина такого поведения была в том что из за предшествующих перебоев в питании начались проблемы электрического кахарктера в одном из HDD. Это выносило мозг SATA контроллеру и он вел себя неадекватно. Заменили винт и теперь не используем те контроллеры, новые берем Adaptec у них таких проблем нет.

Answer 2 · 2013-01-27 21:46:44

Я ловил подобные проблемы из-за проблем с памятью. Есть возможность прогнать memtest на сервере?
Какое сообщение об ошибке (интереснее всего dmesg)?

Answer 3 · 2013-01-28 08:55:14

Присоединяюсь к запросу сообщения об ошибке.

Правильно я понимаю, что вся система расположена на двух рейдах? Корень на одном, виртуалки на другом? Возможно перебои питания убили ту часть диска(ов), на которой расположены виртуалки так, что при попытке доступа туда, контроллер жесткого диска сходит с ума и начинает выдавать ошибки вообще, в т.ч. и на нормальной части диска(ов).

У Вас же уже есть запасной жесткий диск после такой аварии? Если нет, это очень опрометчиво. Срочно приобретайте и подменяйте по одному «боевые» диски и каждый из них сканируйте теми же badblocks.

Xen 4.1, падение fs с виртуалками вызывает падения при обращении к корню. как объяснить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт