Все инфраструктурные приложения (gitlab, registry, prometheus, graylog) вынесите в отдельный кластер. если нет такой возможности, то выделите для них отдельную ноду, оградите их priority classs, resource quota.
Ну и делайте резервные копии, что б было с чего восстанавливать кластер.