Как в Linux мониторить непрерывность предоставления CPU виртуализатором изнутри VM?

Question

pi314 @pi314

Президент Солнечной системы и окрестностей

Как в Linux мониторить непрерывность предоставления CPU виртуализатором изнутри VM?

Ситуация следующего плана: софт на Java бежит под Debian, который крутится в виртуалке (предположительно, под XEN-ом). Логика софта чувствительна к таймаутам порядка одной-двух секунд (управление железом через сокеты, большое количество соединений с watchdog). На стенде все пучком. В продакшене у одного клиента система периодически встает раком: многие (но не все!) соединения падают без видимых причин. Падение / восстановление соединений, в принципе, обрабатывается софтом корректно, но очень хочется докопаться до причины явления, т.к. для нормальной работы всей системы его нужно исключить совсем или хотя бы свести до контролируемого минимума.

Для этого уже длительное время мониторится все возможное, от пингов между компонентами, до нагрузки на свитчи, бесперебойность PoE и т.д. и т.п. По результатам сеть, как причину, уже, в принципе, можно исключить, и подозрение падает на виртуализатор. Это - единственная компонента, к которой нет вменяемого доступа (эксплуатируется клиентом - никого не подпускают ни под каким видом).

Рабочая гипотеза сводится к тому, что виртуализатор ~~недокладывает тиграм мяса~~ кратковременно перестает выделять нашей виртуалке CPU (bursting других VM?), что приводит к срабатыванию таймаутов watchdog-ов, и наш софт, "проснувшись", начинает восстанавливать соединения, которые, на самом деле, не упали. Гипотеза, конечно, очень смелая, но это - единственный способ, которым пока на стенде удается воспроизвести ситуацию. Разумеется, запросы к местным админам заканчиваются ответом: "Не, не знаем - у нас все в порядке".

Отсюда, собственно, вопрос: встречался ли кто-нибудь с тулзами, которыми в Linux можно логировать провалы в предоставлении системе CPU виртуализатором изнутри самой системы. Ясное дело, можно написать самому... Однако, если кто-то встречался с подобными штуками, буду крайне признателен за советы или, по крайней мере, пинки в нужном направлении.

Вопрос задан более трёх лет назад
2872 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 4

2 комментария

pi314 @pi314 Автор вопроса

@Rostel: Спасибо за идею! Увы, доступа к XENу нет никакого. Тамошние админы, похоже, даже не знают, что это такое и за любым чихом обращаются к какому-то подрядчику, что стоит денег и мороки... короче, если их не тыкнуть носом в проблему, никаких телодвижений там не будет :( Уточняющий вопрос: если XPET выключен, значит ли это, что ядро будет при любом раскладе показывать (например, через iostat) stolen time = 0,00 ?

Написано более трёх лет назад
Владимир @rostel

Возможно другой таймер доступен, но не факт что он не "плывет".
Как именно смотреть ищите в сети.
Как сейчас помню, FreeSWITCH как-то обнаруживает рассинхрон с внешним миром и ругается в консоль что подстраивает свой опорный программный таймер.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

Простой
Лучшая практика монтажа кабеля между этажами?
- 2 подписчика
- вчера
- 265 просмотров
4

ответа
Компьютерные сети

+1 ещё

Простой
Не могу сделать в программе softether белый список. Где проблема и что не так?
- 1 подписчик
- 09 июл.
- 212 просмотров
1

ответ
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 276 просмотров
2

ответа
Компьютерные сети

+2 ещё

Сложный
Почему не проходит интернет через радиомост?
- 1 подписчик
- 04 июл.
- 307 просмотров
1

ответ
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 615 просмотров
5

ответов
Компьютерные сети

+3 ещё

Средний
Как настроить нормальную работу UnboundDNS в OPNSense?
- 1 подписчик
- 01 июл.
- 139 просмотров
2

ответа
Компьютерные сети

+3 ещё

Сложный
Почему ASUS RT-BE88U сбрасывает линк WAN до 100 Мбит/с на линии МТС, тогда как TP-Link Archer BE230 на ней же работает на 1 Гбит/с?
- 1 подписчик
- 30 июн.
- 297 просмотров
2

ответа
Железо

+2 ещё

Простой
Как устранить микрофризы в Supermium (YouTube/чат-боты) на Windows 7 с i5-12400F и RTX 3050?
- 1 подписчик
- 29 июн.
- 248 просмотров
1

ответ
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1004 просмотра
1

ответ
Компьютерные сети

+2 ещё

Средний
Почему не работает режим VPN (tun mode) в v2rayN?
- 1 подписчик
- 23 июн.
- 791 просмотр
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-12-05 22:05:09

Проблема решена, гипотеза подтвердилась. Непосредственно по вопросу: мониторить проще всего с помощью:
iostat -c | awk 'NR==4 {print $5}'
Это же значение выдает и top (самое правое в строке %CPU, "0,0 st", что означает steal time), но оттуда его муторнее выдерать.

Большое спасибо всем за советы и высказанные предположения!

Answer 2 · 2014-10-22 18:31:51

Возможно через контроль таймера
wiki.xen.org/wiki/Xen_power_management#HPET_as_bro...
но оно по дефолту отключено.
Без эталона ничего измерить нельзя.

Answer 3 · 2014-10-22 23:05:53

В Linux очень много инструментов для диагностики разной сложности проблем, Вам должна помочь данная табличка и man по выбранной утилите:
www.leon.nu/content/images/2014/May/linux_debug_ut...

Обратите внимание на tcpdump, perf и возможно strace.

Answer 4 · 2014-10-23 14:49:49

Просто говорите клиенту что проблема в его виртуализации и он со свими спецами решает её на свой стороне, это совершенно нормально, то что пытаетесь делать вы это не эффективный бред, каждой проблеме свой инструмент.
Самая частая проблема это к примеру бекап, когда делается на виртуализации бекап происходит такой сильный лаг на всех виртуалках, если скажем для сайтов которые загружены только днем , а бекап ночью все равно то для вашей системы это смерти подобно, вторая частая проблема прожорливый сосед, соседняя виртуалка выжрала все ресы и ваша система соснула таймаутов.

Answer 5 · 2014-10-23 20:44:35

> предположительно, под XEN-ом
Для того, что бы проверить под чем именно используйте команду lscpu.
Если Xen, то вы увидите строчку
Hypervisor vendor: Xen
Если KVM, то
Hypervisor vendor: KVM
Вот если VirtualBox(бывает и такое в продакшене, сам видел), то не увидите про гипервизор, увы. Определив кто там мяса не докладывает будет легче уже.

Как в Linux мониторить непрерывность предоставления CPU виртуализатором изнутри VM?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт