Можно ли в Linux запустить процесс при OOM?

Question

Ярослав @xenon

Too drunk to fsck

Можно ли в Linux запустить процесс при OOM?

Допустим сервер перегружен чем-то (мы знаем через мониторинг, что load average дикий, но больше, толком, ничего не знаем). Посмотреть через SSH не можем, т.к. залогиниться не получается. Либо сразу обывает соединение, либо устанавливается TCP соединение, но не дает баннера SSH даже за полчаса.

Очень обидная ситуация, так как сервер в общем-то работает, даже на простые HTTP запросы отвечает. Был бы ssh - все можно было бы разобраться и починить. (логин, ps, kill, kill, kill). Но его нет.

Ну семь бед - один ответ, хостер перегрузит. Но возникают вопросы.

Вопрос 1 - по какой именно причине не логинится SSH? Нет свободной памяти? (основная моя версия) Или процессора настолько не хватает? (но я полчаса ждал - так даже баннера от SSH не дождался)

Вопрос 2 (админский) - может быть есть какая-то возможность для этого, чтобы избежать этой проблемы в будущем? Теоретически, если SSH сразу себе лишние десять мегабайт на сервере зарезервирует под рут логин, и при логине их будет использовать - это бы сильно помогло. Может быть есть какой-то трюк для этого?

Вопрос 3 (программистский. актуален, если на 2 нет хорошего ответа) - а возможно ли это в Linux в принципе? Если наша программа (наш ssh демон или getty) запускает другую программу (шелл) и для этого ей нужно сколько-то памяти, то можем ли мы заранее ее занять, и к моменту запуска как-то указать, что можно ее использовать, чтобы шелл-процесс запустился гарантированно? Может быть (как извращенный трюк) сразу запускать bash (при запуске сервера) а при логине только коннектить как-то юзера и bash?

Вопрос задан более трёх лет назад
405 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

6 месяцев

Далее
Яндекс Практикум

Go-разработчик с нуля

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 5

6 комментариев

Ярослав @xenon Автор вопроса

В частном случае - конечно.
Но у меня в жизни не первый раз, когда сервер живой, а достучаться не могу. Поэтому хочется в общем случае решить эту проблему.

Написано более трёх лет назад
Дмитрий Александров @jamakasi666 Куратор тега Linux

Ярослав Поляков, еще раз, ищите первоисточник. Грубо , есть задача которая жрет все ЦП время? Ограничьте ее и оставьте свободным хотябы одно.? нет ядер\потоков тогда ограничьте для процесса потребление. Процесс жрет всю память, ограничьте потребление!
Теперь еще раз внимательно перечитайте оба сообщения.

Написано более трёх лет назад
Владимир @Casufi

Дмитрий Александров, Что бы что то искать, нужен доступ к серверу, а у человека ssh не отвечает. Предлагаете в датацентр ехать ?

Написано более трёх лет назад
Ярослав @xenon Автор вопроса

Да в другом дело. С сервером (с частной проблемой) уже решилось все. (перегрузили и зашли).

Суть моего вопроса про ОБЩУЮ ситуацию - как сделать когда у меня или у вас или у кого-то еще будет какая-то задача, которая отжирает память - как сделать чтобы SSH работал? Предотвратить OOM в мировом масштабе - задача заведомо невыполнимая. А вот сделать так, чтобы по SSH можно было зайти даже когда на сервере OOM - это вполне решаемо. (и мне немного странно, что до сих пор это никем в мире не сделано).

Как один из вариантов - вот cgroups выше предложили. А у меня была мысль, может быть как-то можно пре-аллоцировать мегабайт 10-50 для SSH, чтобы рут всегда мог зайти и запустить ps, kill итд

Написано более трёх лет назад
Дмитрий Александров @jamakasi666 Куратор тега Linux

Владимир, как написал автор сервер могут перезагрузить. Соответственно после перезагрузки нужно и начинать решать проблемы.

Ярослав Поляков, видимо не хотите понимать что я пытаюсь донести до Вас. Раз так то идите тупейшим путем, режьте глобально через cgroups потребление ресурсов для группы пользователей и под ними запускайте весь ваш софт который по совершенно неинтересной для вас причине начинает их выжирать. Демона ssh оставьте вне этих групп.
Еще вариант ulimit чтобы рулить в пределах процесса конкретного(хотя точнее будет сессии).
Еще вариант , раз вам глубоко пофиг на причина а значит и рождаемые вами проблемы убийства процессов и возможной потери данных, шаманить с конфигами самого OOMKiller чтобы он сам прибивал толстяка. В конечном счете сейчас вам нужен ssh чтобы просто прибить процесс так проще это автоматизировать.

Написано более трёх лет назад
Ярослав @xenon Автор вопроса

Дмитрий Александров, я понимаю что вы хотите донести. И я спрашиваю про другой (гораздо более сложный) путь, не потому что простой, прямой и короткий путь мне не нравится, а именно наоборот - именно потому что он мне полностью понятен, зачем мне отвлекать тут людей вопросами, на которые я знаю ответ? Это не ситуация или/или. Сервер уже ребутнули, логи начали копать, итд. (как бы, простуду вылечили до следующего раза традиционными понятными средствами)

Просто эта проблема (моя частная, локальная и понятная) меня натолкнула на мысль о более глобальной мировой проблеме, с которой все изредка сталкиваются (невозможность удаленно зайти на сервер) и вот эта ситуация технически у меня вызывает больше интереса и желания понять ее :-). (хочется понять, есть ли универсальная вакцина от этой простуды)

Написано более трёх лет назад

6 комментариев

Ярослав @xenon Автор вопроса

так как до сессии скрина добраться, если SSH сессии-то нету? или это программистская идея в SSH демоне по аналогии со screen сделать?

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Есть шанс надеяться, что sshd с высоким приоритетом, сможет таки ответить в условиях даже адского LA.

Написано более трёх лет назад
sim3x @sim3x

Ярослав Поляков, никто не использует screen для запуска демонов и вообще для чего-либо постоянного

Написано более трёх лет назад
Александр Маджугин @Suntechnic

sim3x, но ведь можно. К тому же я не предлагаю использовать его для запуска демона, а предложим таким образом оставить на сохранении сессию bash.

Написано более трёх лет назад
Ярослав @xenon Автор вопроса

Александр Маджугин, мне понравилась эта идея (хотя и через задницу, но вполне рабочая же!). Только, надо, наверное, не bash а busybox, потому что bash не сможет даже ps запустить, если памяти нет, а в busybox они встроены все. Хотя, блин, malloc() то все равно вызывают - может и упасть, наверное.

Написано более трёх лет назад
sim3x @sim3x

Александр Маджугин, Для непостоянных и неважных задач - да

Написано более трёх лет назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+2 ещё

Средний
Почему nekoray в tun режиме не проксирует запросы от windsurf?
- 1 подписчик
- вчера
- 124 просмотра
1

ответ
Linux

+1 ещё

Средний
Minikube/Kubernetes: как устранить ошибку при установке ingress аддона (webhook)?
- 2 подписчика
- 27 окт.
- 92 просмотра
0

ответов
Linux

+1 ещё

Средний
Почему Linux Ubuntu после установки не запускается без загрузочной флешки?
- 2 подписчика
- 26 окт.
- 249 просмотров
2

ответа
Linux

+1 ещё

Простой
Не могу подключиться к серверу Linux Ubuntu по SSH — как исправить?
- 2 подписчика
- 23 окт.
- 1182 просмотра
5

ответов
Системное администрирование

+1 ещё

Простой
Какие нужны навыки начинающему junior сис админу и каков его карьерный рост?
- 5 подписчиков
- 23 окт.
- 682 просмотра
4

ответа
Компьютерные сети

+2 ещё

Простой
Возможно ли вывести изображение с ноутбука на три разных андроид телевизора внутри локальной сети(некий аналог anydesk)?
- 2 подписчика
- 22 окт.
- 350 просмотров
2

ответа
Системное администрирование

+2 ещё

Простой
Отвал VPN тунеля при подключении по RDP?
- 1 подписчик
- 22 окт.
- 491 просмотр
0

ответов
Linux

+2 ещё

Средний
Туннель Wireguard — всё?
- 2 подписчика
- 21 окт.
- 8693 просмотра
3

ответа
Linux

+4 ещё

Простой
Возможно ли получить интернет с openwrt в proxmox?
- 1 подписчик
- 17 окт.
- 348 просмотров
4

ответа
Linux

+2 ещё

Простой
Как настроить Matrix Synapse сервер, чтобы работал клиент Element X (Element подключается)?
- 1 подписчик
- 17 окт.
- 141 просмотр
1

ответ
Показать ещё Загружается…

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Ведущий инженер-проектировщик линий электропередачи (ЛЭП)

ЭЛСИ Энергопроект • Новосибирск

от 121 000 ₽

Answer 1 · 2019-10-02 21:10:22

1. Да, память. Если процесс жив, но долго отвечает - чаще всего проблема в дисковом io, а потом уже цпу.
Или сеть, или хитрый ддос
Но у вас может быть свой кейс

2. https://www.google.com.ua/search?q=oom+killer+excl...
https://backdrift.org/oom-killer-how-to-create-oom...

3. cgroups
https://superuser.com/questions/1026708/is-there-a...

Answer 2 · 2019-10-02 21:11:05

Правильнее будет найти первоисточник проблемы, перегрузка сети\цп\озу\io. Дальше отталкиваться уже от нее. А если совсем правильно то найти это проблему, найти причину и устранить ее т.к. скорее всего она будет крыться в кривых конфигах.

Answer 3 · 2019-10-02 21:06:46

2 Запускать sshd с nice -19 ?
Вроде по умолчанию там 20.

Может быть (как извращенный трюк) сразу запускать bash (при запуске сервера) а при логине только коннектить как-то юзера и bash?

man screen

Answer 4 · 2019-10-03 10:14:52

Kvm по идее спас бы ситуацию. На крайняк если виртуалка, то менеджер виртуалки. По хорошему настроить мониторинг с логами и уже копать там что является причиной.

Answer 5 · 2019-10-10 11:29:16

Во-первых - сам oom настраивается, можно процессам задавать приоритеты для oom.
Во-вторых - высокий la, из-за которого всё тормозит, может быть по очень разным причинам. И вообще странно думать сразу в сторону oom - он бы наубивал там и всё стало б хорошо, а раз не становится - это уж скорее диск. Или что-то еще.
В-третьих (хотя на самом деле с этого надо начинать) - мониторинг настраивай. Хотя бы netdata поставь, это максимально быстро. Но лучше конечно на отдельный сервер Prometheus с Grafana, а на проблемный сервер соответственно node exporter и экспортеры для конкретных твоих приложений. Ну т.е. в общем случае задача решается мониторингом, опять же логи тоже чтобы отправлялись на другой сервер. А в мониторинге алерты, чтобы успеть среагировать на проблемы, когда они только-только начались.

Answer 6 · 2020-01-05 23:33:03

Полностью согласен с ораторами насчет виртуализации.

По поводу ситуации что уже случилась. Скорее всего заход в баш вам ничего не даст. Т.к. любые команды что вы будете выполнять будут запускать процессы и вы будете снова и снова получать ту-же ситуацию что и с башом. Тоесть каким-то чудом зашли но ничего сделать толком нельзя.

Нужно 100% собрать логи и посмертные снимки памяти приложений. Или приложения. Скорее всего оно одно. И оно-же является источником проблемы. Это приложение надо перенести в докер к лимитами по памяти и там запускать.

Дампы памяти надо проанализировать и понять что флудит. С точки зрения приложения должны быть какие-то гарантии или требования по штатному режиму работы. Тоесть если ему надо 8Г то дайте ему ровно 8 и не больше.

Можно ли в Linux запустить процесс при OOM?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт