Периодически падает debian-сервер с general protection fault?
Всем привет. Есть сервер на Debian 2.6.32.
Сервер этот периодически зависает, при этом ничего не оставляя в логах.
Поднял netconsole, увидел последний выдох сервера — general protection fault и call trace, при этом номер CPU и процесс (один из трех, описанных ниже) варьируется.
На сервере по сути ничего нету кроме написанного на java демона, слушающего команды по tcp, и запускающего .sh скрипт, скрипт этот в свою очередь создает/удаляет named pipes и запускает с нужными параметрами либо останавливает hlds (half-life dedicated server).
Запускается все это из-под обычного пользователя.
Память проверял, правда только частично memtester'ом без перезагрузки (сегодня, наверное, придется взять KVM и проверить полностью, но это чревато полной остановкой сервиса на час-другой).
В чем может быть причина? Куда копать? Что проверить?
Не могли бы вы конкретизировать? Проверить вообще всё несколько трудно, т.к. сервер арендуется и физического доступа к машине нету.
Рейда нету. Память проверил, диск badblocks'ами сейчас проверяю, но не думаю, что дело в нем, т.к. кроме named pipes и логов на диск практически ничего не пишется. Нагружается по сути только процессор (и что самое интересное, падает только при высокой нагрузке, раньше нагрузка была меньше и падало раз в неделю, сейчас падает два-три раза за день и преимущественно вечером).
Но как проверить процессор я не очень представляю.
Да уж… Задачка у вас непростая. Я от таких вещей на работе седеть начал.
Варианта всего два: железо или софт. Так как софт у вас вроде простой то начинать вроде надо с тестирования железа. Если тестирование ничего не принесёт я бы на вашем месте попробовал запустить софт на другом сервере и как-нибудь потестировать на нагрузку. Если это ничего не выявит переезжайте на другой сервер. Если на другом сервере та же песня будет, значит плохо тестировали и дело всё таки в софте. ^^
Это к сожалению ничего не значит. Могла быть другая сборка/версия явы, другое ядро и куча других зависимостей. Надо чуть ли не клон с винта делать чтобы можно было всё исключить.
Кстати, читал на ithappens-е историю про то, как компьютер идеально работал во всех программах кроме Офиса мелкомягких. Потом оказалось что на камне оказался микроскол. Так что надо бы вам протестить бы как то аппликуху на ВСЕ инструкции, поддерживаемые вашим процом. А вот как сделать это честно говоря не знаю. Может у вас нечто подобное. У человека при софтверных тестах тоже ничего не определялось.