@susnake

Почему на работающем сервере диск переводится в RO?

Добрый день.
Есть сервер Ubuntu 14.04.3 LTS (GNU/Linux 3.19.0-43-generic x86_64), 2 SATA HDD на одном раздел / , на втором только /home. Диск с /home 2014 года выпуска.
На сервере стоят различные небольшие сервисы (web, backup), и работает 24/7. В последнее время, примерно с конца ноября стал замечать , что OS переводит этот диск в режим RO. После перезагрузки все работает, до нового перевода в RO. Сегодя при перезагрузки система не смогла определить HDD и соответственно не смогла загрузить /home и предложила мне продолжить без него, нажав на S. Подождал, пока загрузится, погасил сервер, на всякий случай поменял БП и шлейфы. в БИОСе диск определися корректно, запускаю систему - грузится минут 20. Загрузился, диск определился и подмонтировался корректно.
На всякий случаю полностью обновил систему, Обновились "grub-common, grub-pc, grub-pc-bin, grub2-common, libgnutls-openssl27, libgnutls26, libpng12-0, owncloud, owncloud-config-apache, owncloud-server"на всякий случай запустил еще dist-upgrade, дополнительно обновились "linux-generic-lts-vivid, linux-headers-generic-lts-vivid, linux-image-generic-lts-vivid".

После обновлений запустил:
:~$ sudo smartctl -i /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.19.0-25-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.14 (AF)
Device Model: ST1000DM003-1ER162
Serial Number: Z4Y87TP3
LU WWN Device Id: 5 000c50 07b966c9a
Firmware Version: CC46
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Mon Jan 11 16:25:45 2016 NOVT
==> WARNING: A firmware update for this drive is available,
see the following Seagate web pages:
knowledge.seagate.com/articles/en_US/FAQ/207931en
knowledge.seagate.com/articles/en_US/FAQ/223651en
SMART support is: Available - device has SMART capability.
SMART support is: Enabled


Запускаю тестирование:
:~$ sudo smartctl -t long /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.19.0-25-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 106 minutes for test to complete.
Test will complete after Mon Jan 11 18:12:02 2016
Use smartctl -X to abort test.


Дожидаюсь и запускаю
:~$ sudo smartctl -l selftest /dev/sda (если я правильно понял man, то это вывод того, что напротестировала программа)
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.19.0-25-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 1595 -

Т.е. ошибок на диске не нашли.
Запустил расширенный просмотр:
705d37f21b1a453181192cdeef0465e1.png
Да, вроде все нормально.
На всякий случай проверяем время (один раз такое было.)
$ timedatectl
Local time: Пн. 2016-01-11 18:56:48 NOVT
Universal time: Пн. 2016-01-11 12:56:48 UTC
Timezone: Asia/Novosibirsk (NOVT, +0600)
NTP enabled: yes
NTP synchronized: yes
RTC in local TZ: no
DST active: n/a

Время стоит корректное и синхронизируется.
Проверяем FS
$ sudo fsck -f /dev/sda1
fsck из util-linux 2.20.1
e2fsck 1.42.9 (4-Feb-2014)
Проход 1: Проверка inodes, блокs, а также размеров
Pass 2: Checking каталог structure
Pass 3: Checking каталог connectivity
Pass 4: Checking reference counts
Pass 5: Checking группа summary information
data: 760314/61054976 files (0.1% non-contiguous), 67586650/244190208 blocks

А вот тут я не понял. что означает 0,1%. Он что-то нашел и исправил, если да, то что?
И вообще можно как-то еще посмотреть, почему OS внезапно переводит диск в режим RO? Скачков напряжения нет, электричество не вырубали (на сколько мне известно). Я даже как-то в смятении немного.
  • Вопрос задан
  • 815 просмотров
Пригласить эксперта
Ответы на вопрос 2
@Nikolay45
Не рекламы ради, а пользы дела для. geektimes.ru/post/258160 Удачи.
Ответ написан
@kryvel
Системный администратор
похоже что все же умирает диск
тут нужен тест на запись/чтение чтобы удостовериться. но для этого нужно данные куда-то перенести
Но это все равно лучше сделать, иначе может плохо закончиться
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы