@Dime_n_u

Нештатная перезагрузка dedicated сервера с Bitrix?

Устроился в фирму где года 2 работает Bitrix.
Предыстория:
Сервер предоставлен selectel. Centos 7, 11th Gen Intel(R) Core(TM) i7-11700K @ 3.60GHz, 125 GB RAM. По словам бывшего "админа" около года назад у провайдера случилось что-то и сдохла сеть (возможно что-то погорело), после этого начались проблемы. Сервер рандомно зависал/перезагружался в разное время, вручную перезагружали через админку провайдера.
За последний месяц провайдер по нашей просьбе:
- тестили железо - всё хорошо
- при повторной проверке узнали, что дохлая материнка - поменяли, после чего машина благополучно работала около недели, но потом бывало просто выключалась или зависала
- перенесли диски на другое железо, но материнка была с мёртвой NIC - заменили
Теперь машина сама по себе перезагружается. 20 июня более 20 раз, потом 2-3 раза за день, пара дней всё работало отлично, 29 июня было 14 перезагрузок.
Почему собственно обращаюсь.
- приглашался жирный девопс - он ничего не нашёл, в логах пусто, пишите провайдеру. Смотрели:
- journalctl
- dmesg
- /var/log/messages
- ковырялись логи nginx, httpd, mysql
- смотрели температуру процессора через lm_sensors
- вырубили спящий режим, гибернацию
- свободной RAM 60-90 ГБ
- при нагрузочном тесте mysql Load Average был в пределах 2-3 у.е., %CPU в районе 100-300
- машина ни разу не глючила во время нагрузочных тестов
- ssh кроме меня никто не использовал
То есть с одной стороны провайдер говорит смотрите логи, проблема на стороне ОС, но в логах пусто, да и не понятно что и как рандомно может ложить систему под нагрузкой и без. С другой стороны после замены материнки машина лежала и после обращения в ТП нам сказали "Сервер был обнаружен в выключенном состоянии". То есть как вариант админы selectel ходят под мухой.
У меня тупо кончились идеи и гугл, поэтому пришёл сюда. Может кто сталкивался или подкинет новую идею или подскажет куда смотреть?
  • Вопрос задан
  • 119 просмотров
Пригласить эксперта
Ответы на вопрос 3
@Drno
берем новый сервер. переносим всё туда. старый удаляем
Ответ написан
Комментировать
SignFinder
@SignFinder
Wintel\Unix Engineer\DevOps
Я бы чуть-чуть уточнил ответ выше.
Берем новый сервер, ставим туда Proxmox, а уже в нём делаем один из двух вариантов:
1. Разворачиваем виртуальную машину со свежим bitrix-env и переносим туда сайт средствами bitrix.
2. Конвертируем старый сервер в виртуальную машину.

Таким образом получим:
1. Отдельный слой между железом и bitrix в виде Proxmox гипервизора.
2. Более гибкий вариант бекапов\переносов данных на другое железо.

И при всем при этом обеспечиваем обновления ОС и bitrix для поддержания в актуальном состоянии.

P.S. жирный девопс тут не в тему, тут нужен жирный системный администратор.
Ответ написан
CityCat4
@CityCat4
Внимание! Изменился адрес почты!
Тут не нужен был ни жирный ни худой девопс. EL7 - достаточно стабильная система, ее почти не испортило даже появление systemd. Если она начинает сыпаться (а 20 перезагрузок в день - это оно и есть) - значит проблема в железе однозначно.
Если машина конторская - берем, тестируем. Если провайдерская - возвращаем этот piece of shit. Ставим новый сервак, на него переносим старый. Я бы действительно задумался об установке туда гипера - ВМ куда как проще бэкапить-восстанавливать да и переносить туда-сюда тоже проще, чем bare-metal.
Хотя и bare-metal тоже можно через dump/restore.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы