Задать вопрос
@susnake

Почему на работающем сервере диск переводится в RO?

Добрый день.
Есть сервер Ubuntu 14.04.3 LTS (GNU/Linux 3.19.0-43-generic x86_64), 2 SATA HDD на одном раздел / , на втором только /home. Диск с /home 2014 года выпуска.
На сервере стоят различные небольшие сервисы (web, backup), и работает 24/7. В последнее время, примерно с конца ноября стал замечать , что OS переводит этот диск в режим RO. После перезагрузки все работает, до нового перевода в RO. Сегодя при перезагрузки система не смогла определить HDD и соответственно не смогла загрузить /home и предложила мне продолжить без него, нажав на S. Подождал, пока загрузится, погасил сервер, на всякий случай поменял БП и шлейфы. в БИОСе диск определися корректно, запускаю систему - грузится минут 20. Загрузился, диск определился и подмонтировался корректно.
На всякий случаю полностью обновил систему, Обновились "grub-common, grub-pc, grub-pc-bin, grub2-common, libgnutls-openssl27, libgnutls26, libpng12-0, owncloud, owncloud-config-apache, owncloud-server"на всякий случай запустил еще dist-upgrade, дополнительно обновились "linux-generic-lts-vivid, linux-headers-generic-lts-vivid, linux-image-generic-lts-vivid".

После обновлений запустил:
:~$ sudo smartctl -i /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.19.0-25-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.14 (AF)
Device Model: ST1000DM003-1ER162
Serial Number: Z4Y87TP3
LU WWN Device Id: 5 000c50 07b966c9a
Firmware Version: CC46
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Mon Jan 11 16:25:45 2016 NOVT
==> WARNING: A firmware update for this drive is available,
see the following Seagate web pages:
knowledge.seagate.com/articles/en_US/FAQ/207931en
knowledge.seagate.com/articles/en_US/FAQ/223651en
SMART support is: Available - device has SMART capability.
SMART support is: Enabled


Запускаю тестирование:
:~$ sudo smartctl -t long /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.19.0-25-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART Extended self-test routine immediately in off-line mode".
Drive command "Execute SMART Extended self-test routine immediately in off-line mode" successful.
Testing has begun.
Please wait 106 minutes for test to complete.
Test will complete after Mon Jan 11 18:12:02 2016
Use smartctl -X to abort test.


Дожидаюсь и запускаю
:~$ sudo smartctl -l selftest /dev/sda (если я правильно понял man, то это вывод того, что напротестировала программа)
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.19.0-25-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 1595 -

Т.е. ошибок на диске не нашли.
Запустил расширенный просмотр:
705d37f21b1a453181192cdeef0465e1.png
Да, вроде все нормально.
На всякий случай проверяем время (один раз такое было.)
$ timedatectl
Local time: Пн. 2016-01-11 18:56:48 NOVT
Universal time: Пн. 2016-01-11 12:56:48 UTC
Timezone: Asia/Novosibirsk (NOVT, +0600)
NTP enabled: yes
NTP synchronized: yes
RTC in local TZ: no
DST active: n/a

Время стоит корректное и синхронизируется.
Проверяем FS
$ sudo fsck -f /dev/sda1
fsck из util-linux 2.20.1
e2fsck 1.42.9 (4-Feb-2014)
Проход 1: Проверка inodes, блокs, а также размеров
Pass 2: Checking каталог structure
Pass 3: Checking каталог connectivity
Pass 4: Checking reference counts
Pass 5: Checking группа summary information
data: 760314/61054976 files (0.1% non-contiguous), 67586650/244190208 blocks

А вот тут я не понял. что означает 0,1%. Он что-то нашел и исправил, если да, то что?
И вообще можно как-то еще посмотреть, почему OS внезапно переводит диск в режим RO? Скачков напряжения нет, электричество не вырубали (на сколько мне известно). Я даже как-то в смятении немного.
  • Вопрос задан
  • 909 просмотров
Подписаться 1 Оценить 4 комментария
Помогут разобраться в теме Все курсы
  • Skillfactory
    Профессия C++ разработчик
    11 месяцев
    Далее
  • Stepik
    Основы работы в консоли Linux, настройка сетевых служб (кластер)
    1 неделя
    Далее
  • Слёрм
    Linux для разработчиков
    2 недели
    Далее
Пригласить эксперта
Ответы на вопрос 2
@Nikolay45
Не рекламы ради, а пользы дела для. geektimes.ru/post/258160 Удачи.
Ответ написан
@kryvel
Системный администратор
похоже что все же умирает диск
тут нужен тест на запись/чтение чтобы удостовериться. но для этого нужно данные куда-то перенести
Но это все равно лучше сделать, иначе может плохо закончиться
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
Principal Recruitment Москва
от 200 000 до 250 000 ₽
Principal Recruitment Москва
от 200 000 до 350 000 ₽
IT ATLAS Москва
от 200 000 до 250 000 ₽