@uhryab

RAID контроллер не видит новый диск

На сервере с SUSE Linux Enterprise Server 11 (x86_64) три контроллера 3ware. На каждом контроллере raid-5 из 8 дисков. На одном из них вылетел диск. Вставляется новый диск, но контроллер не определяет диск. Вставляется битый диск и контроллер с большим удовольствием его видит. В чем может быть проблема?




teradata:/ # tw_cli show

Ctl   Model        (V)Ports  Drives   Units   NotOpt  RRate   VRate  BBU
------------------------------------------------------------------------
c2    9690SA-8I    8         8        1       0       1       1      -
c3    9690SA-8I    8         8        1       0       1       1      -
c4    9690SA-8I    7         7        1       1       1       1      -

teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    6519.19   OFF    ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    DEGRADED       u0   931.51 GB SATA  3   -            ST31000524NS
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS


teradata:~ # tw_cli maint remove c4 p3
Removing port /c4/p3 ... Done.


Произведем замену битого диска на новый диск.

teradata:~ # tw_cli /c4 rescan
Rescanning controller /c4 for units and drives ...Done.
Found the following unit(s): [none].
Found the following drive(s): [none].

teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    DEGRADED       -       -       256K    6519.19   OFF    ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS

Контроллер не видит новый диск.

Вставим битый диск обратно. После этого мы видим.


teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    DEGRADED       -       -       256K    6519.19   OFF    ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    DEGRADED       u0   931.51 GB SATA  3   -            ST31000524NS
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS

Удалим битый диск и сделаем rescan. (Физически битый диск не вытаскиваю)

teradata:~ # tw_cli maint remove c4 p3
Removing port /c4/p3 ... Done.

teradata:/ # tw_cli /c4 rescan
Rescanning controller /c4 for units and drives ...
Done.
Found the following unit(s): [none].
Found the following drive(s): [/c4/p3].

teradata:/ #
teradata:/ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    DEGRADED       -       -       256K    6519.19   OFF    ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    OK             u?   931.51 GB SATA  3   -            ST31000524NS
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS

Пробую сделать rebuild для битого диска
teradata:/ # tw_cli maint rebuild c4 u0 p3
The following drive(s) cannot be used [3].
Error: (CLI:144) Invalid drive(s) specified.

Несколько часов битый диск имеет статус

p3    OK             u?   931.51 GB SATA  3   -            ST31000524NS

Через несколько часов статус диска меняется на DEGRADED

p3    DEGRADED       u0   931.51 GB SATA  3   -            ST31000524NS

teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    6519.19   OFF    ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    DEGRADED       u0   931.51 GB SATA  3   -            ST31000524NS
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS


Для замены использовались пять новых дисков, ни один из пяти новых дисков контроллер не увидел. Если я вставляю битый диск, то его контроллер видит.

Битый диск модель Segate ST31000524NS менялся на туже модель. Все новые диски исправны. В чем может быть проблема?

teradata:~ # vgdisplay -v vg_data
    Using volume group(s) on command line
    Finding volume group "vg_data"
  --- Volume group ---
  VG Name               vg_data
  System ID
  Format                lvm2
  Metadata Areas        3
  Metadata Sequence No  2
  VG Access             read/write
  VG Status             resizable
  MAX LV                0
  Cur LV                1
  Open LV               1
  Max PV                0
  Cur PV                3
  Act PV                3
  VG Size               19.00 TB
  PE Size               64.00 MB
  Total PE              311318
  Alloc PE / Size       311318 / 19.00 TB
  Free  PE / Size       0 / 0
  VG UUID               zoSzgL-Jkcr-fYEW-Ic4x-33R8-mSqU-Y34Su8

  --- Logical volume ---
  LV Name                /dev/vg_data/lv_data
  VG Name                vg_data
  LV UUID                lp1gcy-ecZI-F5QU-pFIX-77UA-urfv-uKUBi4
  LV Write Access        read/write
  LV Status              available
  # open                 1
  LV Size                19.00 TB
  Current LE             311318
  Segments               3
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     1024
  Block device           253:8

  --- Physical volumes ---
  PV Name               /dev/sdb1
  PV UUID               e0hITf-ntw8-wzak-vIrk-8J3B-2FST-YqQ03v
  PV Status             allocatable
  Total PE / Free PE    102706 / 0

  PV Name               /dev/sdc1
  PV UUID               owvZVB-9yIz-aA3F-9lLB-oYc6-7UV6-Lu1Lmu
  PV Status             allocatable
  Total PE / Free PE    104306 / 0

  PV Name               /dev/sdd1
  PV UUID               IgtT05-xMXW-Jn1P-Y8H7-kHMn-sfaY-qUpdMf
  PV Status             allocatable
  Total PE / Free PE    104306 / 0

Есть мысль пересобрать RAID, но для этого придется сделать бэкап 13 ТB данных.
Filesystem            Size  Used Avail Use% Mounted on
/dev/mapper/vg_system-lv_root
                      2.0G  276M  1.6G  15% /
devtmpfs              1.9G  156K  1.9G   1% /dev
tmpfs                 1.9G     0  1.9G   0% /dev/shm
/dev/sda1            1004M   43M  911M   5% /boot
/dev/mapper/vg_system-lv_home
                      2.0G  500M  1.4G  27% /home
/dev/mapper/vg_system-lv_opt
                       20G  324M   19G   2% /opt
/dev/mapper/vg_system-lv_srv
                      2.0G   68M  1.9G   4% /srv
/dev/mapper/vg_system-lv_tmp
                      3.0G  1.9G  946M  68% /tmp
/dev/mapper/vg_system-lv_usr
                       15G  2.4G   12G  17% /usr
/dev/mapper/vg_system-lv_var
                       20G  883M   18G   5% /var
/dev/mapper/vg_data-lv_data
                       19T   13T  6.1T  68% /data

ОС видит рэйды, как /dev/sdb1, /dev/sdc1, /dev/sdd1. Как узнать в ОС в каком вылетел диск?
Предположим, что мы определили /dev/sdd1 с битым диском. Как узнать какая информация на нем располагается? Нужно для того, чтобы не бэкапить 13 ТВ, а забэкапить всего лишь 6,5 TB.
Хотелось бы услышать Ваши советы и комментарии по данной проблеме. Может быть кто-то сталкивался с подобным. Заранеее признателен и благодарен за Ваши ответы.
  • Вопрос задан
  • 5821 просмотр
Пригласить эксперта
Ответы на вопрос 4
@BasilioCat
Для некоторых раидов требуется инициализация диска, прежде чем его можно добавить в массив, например на адаптеках. Возможно у вас также
Ответ написан
Комментировать
nicolnx
@nicolnx
для 3ware есть утилита, которая при запуске слушает 888 порт и отдает веб-интерфейс.
Я диски менял оттуда — там видно что диск обнаружился, но не проинициализирован. Как его проинитить из под cli не смотрел, но с той web-based приблудой это в пару кликов делается.
Ответ написан
Комментировать
@uhryab Автор вопроса
Веб интерфейсом я пользовался, но не помогло
Ответ написан
Комментировать
@uhryab Автор вопроса
А вот продолжение истории

Решил попробовать вставить другой диск. Диск у меня был только 2TB. Контроллер его физически сразу увидел. Радостно на нем маргнула несколько раз синяя лампочка.

Смотрим консоль.



teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    DEGRADED       -       -       256K    6519.19   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS

teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILDING     0%      -       256K    6519.19   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    DEGRADED       u0   1.82 TB   SATA  3   -            WDC WD20EARS-00MVWB0
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS

teradata:~ # tw_cli maint rebuild c4 u0 p3
The following drive(s) cannot be used [3].
Error: (CLI:144) Invalid drive(s) specified.


teradata:~ # tw_cli maint remove c4 p3
Removing port /c4/p3 ... Done.


teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    DEGRADED       -       -       256K    6519.19   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS

teradata:~ # tw_cli /c4 rescan
Rescanning controller /c4 for units and drives ...Done.
Found the following unit(s): [none].
Found the following drive(s): [/c4/p3].

teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    DEGRADED       -       -       256K    6519.19   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    OK             -    1.82 TB   SATA  3   -            WDC WD20EARS-00MVWB0
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS

teradata:~ # tw_cli maint rebuild c4 u0 p3
Sending rebuild start request to /c4/u0 on 1 disk(s) [3] ... Done.


teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILDING     0%      -       256K    6519.19   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    DEGRADED       u0   1.82 TB   SATA  3   -            WDC WD20EARS-00MVWB0
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS


Обратим внимание идет REBUILDING массива, но диск в состоянии DEGRADED.

REBUILDING массива прошел за 4 часа 20 минут

И все стало так


teradata:~ # tw_cli /c4 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    OK             -       -       256K    6519.19   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            ST31000340NS
p1    OK             u0   931.51 GB SATA  1   -            ST31000340NS
p2    OK             u0   931.51 GB SATA  2   -            ST31000340NS
p3    OK             u0   1.82 TB   SATA  3   -            WDC WD20EARS-00MVWB0
p4    OK             u0   931.51 GB SATA  4   -            ST31000340NS
p5    OK             u0   931.51 GB SATA  5   -            ST31000340NS
p6    OK             u0   931.51 GB SATA  6   -            ST31000340NS
p7    OK             u0   931.51 GB SATA  7   -            ST31000340NS
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы