Имеется сервер с виртуализацией в LXC.
В датацентре предупредили о технических работах, на время которых мы выключили сервер.
После окончания работ мы запустили сервер и все стартануло нормально.
Спустя несколько месяцев надо было перенести виртуалку на другой сервер, но в момент запуска копирования при помощи dd, через минут 5-7 после запуска сервер перегрузился.
Сначала решили что просто совпадение, но в момент когда меньше всего посетителей, запустили снова бэкап, и ситуация повторилась.
Софт райд не ругается, все диски "в обойме". Вот что показывает smartctl -A /dev/sdX
/dev/sda
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-13-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0
2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0
3 Spin_Up_Time 0x0027 100 100 001 Pre-fail Always - 7118
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 25
5 Reallocated_Sector_Ct 0x0033 100 100 050 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 001 001 000 Old_age Always - 53223
10 Spin_Retry_Count 0x0033 100 100 030 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 25
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 106
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 19
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 106
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 37 (Min/Max 23/49)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Always - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Always - 0
222 Loaded_Hours 0x0032 001 001 000 Old_age Always - 53194
223 Load_Retry_Count 0x0032 100 100 000 Old_age Always - 0
224 Load_Friction 0x0022 100 100 000 Old_age Always - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Always - 640
240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Offline - 0
/dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-13-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0
2 Throughput_Performance 0x0005 100 100 050 Pre-fail Offline - 0
3 Spin_Up_Time 0x0027 100 100 001 Pre-fail Always - 7118
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 25
5 Reallocated_Sector_Ct 0x0033 100 100 050 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 100 100 050 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 001 001 000 Old_age Always - 53223
10 Spin_Retry_Count 0x0033 100 100 030 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 25
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 106
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 19
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 106
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 37 (Min/Max 23/49)
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 253 000 Old_age Always - 0
220 Disk_Shift 0x0002 100 100 000 Old_age Always - 0
222 Loaded_Hours 0x0032 001 001 000 Old_age Always - 53194
223 Load_Retry_Count 0x0032 100 100 000 Old_age Always - 0
224 Load_Friction 0x0022 100 100 000 Old_age Always - 0
226 Load-in_Time 0x0026 100 100 000 Old_age Always - 640
240 Head_Flying_Hours 0x0001 100 100 001 Pre-fail Offline - 0
При обращении в техподдержку нам сообщили что винты в норме и повода для замены нет. Порекомендовали из панели запустить селфтестинг сервера.
Но при запуске - сервак завис на пол часа и потом перегрузился.
Ввиду того что датацентр не смог помочь, решили переехать в другой, но хотелось бы для опыта понять - где собака порылась?
Бэкап делаю так
lvcreate -L 30GB -s -n backends-snap /dev/lxc/backends
dd if=/dev/lxc/backends-snap bs=1M | gzip -9 > /mnt/backups/strato3/backends-snap30.gz
lvremove /dev/lxc/backends-snap