На сервере с SUSE Linux Enterprise Server 11 (x86_64) три контроллера 3ware. На каждом контроллере raid-5 из 8 дисков. На одном из них вылетел диск. Вставляется новый диск, но контроллер не определяет диск. Вставляется битый диск и контроллер с большим удовольствием его видит. В чем может быть проблема?
teradata:/ # tw_cli show
Ctl Model (V)Ports Drives Units NotOpt RRate VRate BBU
------------------------------------------------------------------------
c2 9690SA-8I 8 8 1 0 1 1 -
c3 9690SA-8I 8 8 1 0 1 1 -
c4 9690SA-8I 7 7 1 1 1 1 -
teradata:~ # tw_cli /c4 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 6519.19 OFF ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - ST31000340NS
p1 OK u0 931.51 GB SATA 1 - ST31000340NS
p2 OK u0 931.51 GB SATA 2 - ST31000340NS
p3 DEGRADED u0 931.51 GB SATA 3 - ST31000524NS
p4 OK u0 931.51 GB SATA 4 - ST31000340NS
p5 OK u0 931.51 GB SATA 5 - ST31000340NS
p6 OK u0 931.51 GB SATA 6 - ST31000340NS
p7 OK u0 931.51 GB SATA 7 - ST31000340NS
teradata:~ # tw_cli maint remove c4 p3
Removing port /c4/p3 ... Done.
Произведем замену битого диска на новый диск.
teradata:~ # tw_cli /c4 rescan
Rescanning controller /c4 for units and drives ...Done.
Found the following unit(s): [none].
Found the following drive(s): [none].
teradata:~ # tw_cli /c4 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 DEGRADED - - 256K 6519.19 OFF ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - ST31000340NS
p1 OK u0 931.51 GB SATA 1 - ST31000340NS
p2 OK u0 931.51 GB SATA 2 - ST31000340NS
p4 OK u0 931.51 GB SATA 4 - ST31000340NS
p5 OK u0 931.51 GB SATA 5 - ST31000340NS
p6 OK u0 931.51 GB SATA 6 - ST31000340NS
p7 OK u0 931.51 GB SATA 7 - ST31000340NS
Контроллер не видит новый диск.
Вставим битый диск обратно. После этого мы видим.
teradata:~ # tw_cli /c4 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 DEGRADED - - 256K 6519.19 OFF ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - ST31000340NS
p1 OK u0 931.51 GB SATA 1 - ST31000340NS
p2 OK u0 931.51 GB SATA 2 - ST31000340NS
p3 DEGRADED u0 931.51 GB SATA 3 - ST31000524NS
p4 OK u0 931.51 GB SATA 4 - ST31000340NS
p5 OK u0 931.51 GB SATA 5 - ST31000340NS
p6 OK u0 931.51 GB SATA 6 - ST31000340NS
p7 OK u0 931.51 GB SATA 7 - ST31000340NS
Удалим битый диск и сделаем rescan. (Физически битый диск не вытаскиваю)
teradata:~ # tw_cli maint remove c4 p3
Removing port /c4/p3 ... Done.
teradata:/ # tw_cli /c4 rescan
Rescanning controller /c4 for units and drives ...
Done.
Found the following unit(s): [none].
Found the following drive(s): [/c4/p3].
teradata:/ #
teradata:/ # tw_cli /c4 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 DEGRADED - - 256K 6519.19 OFF ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - ST31000340NS
p1 OK u0 931.51 GB SATA 1 - ST31000340NS
p2 OK u0 931.51 GB SATA 2 - ST31000340NS
p3 OK u? 931.51 GB SATA 3 - ST31000524NS
p4 OK u0 931.51 GB SATA 4 - ST31000340NS
p5 OK u0 931.51 GB SATA 5 - ST31000340NS
p6 OK u0 931.51 GB SATA 6 - ST31000340NS
p7 OK u0 931.51 GB SATA 7 - ST31000340NS
Пробую сделать rebuild для битого диска
teradata:/ # tw_cli maint rebuild c4 u0 p3
The following drive(s) cannot be used [3].
Error: (CLI:144) Invalid drive(s) specified.
Несколько часов битый диск имеет статус
p3 OK u? 931.51 GB SATA 3 - ST31000524NS
Через несколько часов статус диска меняется на DEGRADED
p3 DEGRADED u0 931.51 GB SATA 3 - ST31000524NS
teradata:~ # tw_cli /c4 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 6519.19 OFF ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - ST31000340NS
p1 OK u0 931.51 GB SATA 1 - ST31000340NS
p2 OK u0 931.51 GB SATA 2 - ST31000340NS
p3 DEGRADED u0 931.51 GB SATA 3 - ST31000524NS
p4 OK u0 931.51 GB SATA 4 - ST31000340NS
p5 OK u0 931.51 GB SATA 5 - ST31000340NS
p6 OK u0 931.51 GB SATA 6 - ST31000340NS
p7 OK u0 931.51 GB SATA 7 - ST31000340NS
Для замены использовались пять новых дисков, ни один из пяти новых дисков контроллер не увидел. Если я вставляю битый диск, то его контроллер видит.
Битый диск модель Segate ST31000524NS менялся на туже модель. Все новые диски исправны. В чем может быть проблема?
teradata:~ # vgdisplay -v vg_data
Using volume group(s) on command line
Finding volume group "vg_data"
--- Volume group ---
VG Name vg_data
System ID
Format lvm2
Metadata Areas 3
Metadata Sequence No 2
VG Access read/write
VG Status resizable
MAX LV 0
Cur LV 1
Open LV 1
Max PV 0
Cur PV 3
Act PV 3
VG Size 19.00 TB
PE Size 64.00 MB
Total PE 311318
Alloc PE / Size 311318 / 19.00 TB
Free PE / Size 0 / 0
VG UUID zoSzgL-Jkcr-fYEW-Ic4x-33R8-mSqU-Y34Su8
--- Logical volume ---
LV Name /dev/vg_data/lv_data
VG Name vg_data
LV UUID lp1gcy-ecZI-F5QU-pFIX-77UA-urfv-uKUBi4
LV Write Access read/write
LV Status available
# open 1
LV Size 19.00 TB
Current LE 311318
Segments 3
Allocation inherit
Read ahead sectors auto
- currently set to 1024
Block device 253:8
--- Physical volumes ---
PV Name /dev/sdb1
PV UUID e0hITf-ntw8-wzak-vIrk-8J3B-2FST-YqQ03v
PV Status allocatable
Total PE / Free PE 102706 / 0
PV Name /dev/sdc1
PV UUID owvZVB-9yIz-aA3F-9lLB-oYc6-7UV6-Lu1Lmu
PV Status allocatable
Total PE / Free PE 104306 / 0
PV Name /dev/sdd1
PV UUID IgtT05-xMXW-Jn1P-Y8H7-kHMn-sfaY-qUpdMf
PV Status allocatable
Total PE / Free PE 104306 / 0
Есть мысль пересобрать RAID, но для этого придется сделать бэкап 13 ТB данных.
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/vg_system-lv_root
2.0G 276M 1.6G 15% /
devtmpfs 1.9G 156K 1.9G 1% /dev
tmpfs 1.9G 0 1.9G 0% /dev/shm
/dev/sda1 1004M 43M 911M 5% /boot
/dev/mapper/vg_system-lv_home
2.0G 500M 1.4G 27% /home
/dev/mapper/vg_system-lv_opt
20G 324M 19G 2% /opt
/dev/mapper/vg_system-lv_srv
2.0G 68M 1.9G 4% /srv
/dev/mapper/vg_system-lv_tmp
3.0G 1.9G 946M 68% /tmp
/dev/mapper/vg_system-lv_usr
15G 2.4G 12G 17% /usr
/dev/mapper/vg_system-lv_var
20G 883M 18G 5% /var
/dev/mapper/vg_data-lv_data
19T 13T 6.1T 68% /data
ОС видит рэйды, как /dev/sdb1, /dev/sdc1, /dev/sdd1. Как узнать в ОС в каком вылетел диск?
Предположим, что мы определили /dev/sdd1 с битым диском. Как узнать какая информация на нем располагается? Нужно для того, чтобы не бэкапить 13 ТВ, а забэкапить всего лишь 6,5 TB.
Хотелось бы услышать Ваши советы и комментарии по данной проблеме. Может быть кто-то сталкивался с подобным. Заранеее признателен и благодарен за Ваши ответы.