Начинают виснуть постепенно, тупить, потом не откликаются совсем примерно 49-50 минут, потом снова начинают работать нормально примерно минут 40, потом снова не откликаются совсем примерно 49-50 минут и т.д.
ОС: CentOS Linux release 7.5.1804 (Core)
Панели нет
Intel E3-1230v3
1TB HDD
8GB
PHP 5.6.38 (cli)
Очень много доменов (и сабдоменов), а еще больше (около 70 миллионов инодов (в основном тхт файлы с текстом)).
Все процессы вроде как обычно, изменений в нагрузке я не вижу при переходе в зависание сайтов.
Перед началом этого всего на сервере никаких работ не проводилось, ничего нового не добавлялось, свободного места еще много.
service named status
Active: failed (Result: timeout)
но вроде перестал сервис named рестартиться, только вручную (support помог, но не помогло).
Возможно начал выдергиваться HDD и переезд на SSD решит данную проблему?
Спасибо большое за любой совет!
UPDATE: проблема была в HDD, после переноса всего на SSD - эта проблема была решена.
fdff7, если бы проблемы серверов легко решались советами в интернете, админы были бы не нужны. Диагностика и исправление проблем web-сервера может требовать немалого опыта и знаний.
Заведомо непонятный ход с 1 винтом, да ещё и не в RAID. Да, SSD улучшит положение дел, и возможно решит данную проблему. Такой конфиг только под домашний веб-сервер можно использовать.
Но на будущее, если сайтов больше 3-5, делайте RAID массив. Это ускорит работу и поможет сохранить данные в случае смерти одного из винтов.
Спасибо большое, согласен, мне писали, что нужен еще один доп. винт, думал взять через какое-то время.
а с SSD нужен RAID массив? Если SSD накроется?
и если допустим, проблема в HDD, то как такая периодичность наблюдается (не откликаются совсем примерно 49-50 минут, потом снова начинают работать нормально примерно минут 40, потом снова не откликаются совсем примерно 49-50 минут и т.д.)?
fdff7, Можно до бесконечности тыкать пальцем в небо в поисках вашей проблемы. Сборку делали вы, и никто кроме вас не знает, что за черти водятся в вашей системе, забивая кэш винта и прочее, здесь нужно анализировать логи.
RAID массив делайте под хранение контента, т.е сам веб-сервер Apache2/Nginx, а SSD лучше под систему и хранение данных(базу).
fdff7, через любую утилиту прогоните ЖД на наличие ошибок и битых секторов. Скорее всего они там есть, поэтому и происходит данный трабл. Если же всё в норме, начинаем копать в сторону состояния всех происходящих процессов.
fdff7, т.е идёт поиск инфы в битых секторах, и естественно её не находит или не может считать. И делает это кругами, поэтому сайты у тупят. Так как винт находится в поисках Дзен)
P.S - одно из предположений)
Начать стоит с файловой системы.
Одной из наиболее частых ошибок разработчиков (даже опытных) является недооценка важности лимитирования количества файлов на директорию. Если их больше 1000 или приближаетесь - очень желательно дробить по субдиректориям.
Так же нелишне будет проверить сколько инодов вообще доступно системе, может вы уже на пределе плаваете и любой новый десяток темповых файлов заваливает всё дело ))
с кол-ством инодов у меня была уже когда-то проблема
поэтому сейчас их достаточно, файлы разбиты на диретории, в каждой директории по примерно 100к-1кк файлов, файлы по пару кбайт
Если я Вас правильно понял и в каждой директории у Вас по 100 000 - 1М файлов, то, похоже, источник Вашей проблемы найден. Даже удивительно, что тормоза начались только сейчас ;)
п.с. Быстродействие ССД, конечно, немного "заполирует" проблему, но не решит.
По опыту могу сказать, что неправильная настройка файловой системы чем-то напоминает неправильную настройку сети: все может работать месяцами, а потом так резко встать в "позу бегущей собачки", что долго озадачивает очень многих ))