Сервер работал-работал и внезапно перестал отвечать(http,ping,ssh,ftp — без результатов).
Позвонили в хостинговую компанию. Они сказали, что сервер наглухо завис, сейчас его перезагрузили и теперь всё снова работает.
Закончилось всё хорошо(перезагрузили оперативно), но хотелось бы понять, где искать причины падения?
В /val/log/messages последним было несколько неудачных авторизаций от root по ssh(вещь стандартная — боты постоянно пытаются подобрать пароль к root'у, который запрещён) и следующее:
Feb 26 16:09:57 client monit[71718]: monit: Socket 5 close failed -- Connection reset by peer
Feb 26 16:52:11 client kernel: mfi0: 31687 (352053149s/0x0020/info) - Patrol Read complete
после этого записи уже после перезагрузки
в /var/log/dmesg.today так же ничего интересного.
Подскажите, пожалуйста, где ещё можно найти что-то полезное?
P.S. по результатам можно было бы составить краткое How To :)
last левые логины выдает?
в следующий раз попросите скрин зависона — зависон завсиону рознь.
Если в своп ушел, надо искать причину чрезмерного потребления памяти. Зачастую это бывает апач, у которого maxclients выставлен далеко за пределы физических возможностей сервера.
У меня фря на парочке серверов почему то последнее время зачастила самопроизвольно перегружаться…
в last всё только своё.
а «скрин зависона»… что-то в таких случаях может вывестись на консоль?
на сервере стоит nginx+php-fpm. Apache снесли, т.к. не справлялся. (при большой нагрузке начинал уходить в состояние, когда в kernel mode использовал почти 100% ЦП и после спада нагрузки из этого не возвращался)
Скрин зависона обычно грамотные хостеры высылают в случае, соответственно, зависона.
Вдруг этот ваш драйвер mfi глюкнул, диски отвалились и последний крик ядра не попал на диск. В этом случае может быть полезен скрин консоли. Да он вообще полезен
Пускай паники сделают скрин и то хлеб. У нас обнаруживались ошибки в igb.
Feb 24 03:01:29 cl1123 kernel: interrupt storm detected on «irq16:»; throttling interrupt source
Feb 26 03:00:38 cl1123 kernel: mfi0: 8252 (352004400s/0x0020/info) — Patrol Read started
Feb 26 03:00:38 cl1123 kernel: mfi0: 8253 (352004400s/0x0001/info) — Consistency Check started on VD 00/0
Feb 26 03:00:38 cl1123 kernel: mfi0: 8254 (352004400s/0x0020/info) — Patrol Read complete
Feb 26 04:49:28 cl1123 kernel: mfi0: 8587 (352010929s/0x0001/info) — Consistency Check done on VD 00/0
Feb 27 03:06:29 cl1123 kernel: interrupt storm detected on «irq16:»; throttling interrupt source
Feb 27 20:50:29 cl1123 kernel: interrupt storm detected on «irq16:»; throttling interrupt source
irq16 это как раз райд — mfi0.
Нагрузки на него 0.0 ибо пишется один файл.
Что то в фрибсд как то хреново с этими mfi,mpt. У меня парк серверов DELL с RAID контроллером Perc 6/i. Когда делаешь харварный рейд и фряха его цепляет на драйвер mpt, то при определенной нагрузке файловая система по тихоньку начинает крошиться и исходит на гавно в конце концов. С софтовым же рейдом все впорядке, в Линуксе с этим же железячным рейдом проблем замечено не было. А фря напостой подставляет :(
Какая платформа?
У нас на Интеловской платформе штормит на irq райда. Продиагностировать пока не смогли ибо машина runtime и кое как работает… По-мимо этого еще при высокой нагрузке на сетевухи отваливается сеть. И машина иногда перегружается от высокой нагрузки. С температурой по данным RMM3 все отлично. RMM3 на время перегрузки пишет хрень какую-то, так что инженеры Интел попросили провести анализ в EFI…
Забыл добавить, это одна из последних топовых моделей.
Очень разочарованы в Интелах после этого…
И да, кажется это судьба «первой» линейки 56хх платформ. IBM с таким же драйвером райда вроде не штормите. Но при нагрузке не процессор начинает глючить также.
Sun с 55хх и носом не ведет, все отлично работает.