pi314
@pi314
Президент Солнечной системы и окрестностей

Как в Linux мониторить непрерывность предоставления CPU виртуализатором изнутри VM?

Ситуация следующего плана: софт на Java бежит под Debian, который крутится в виртуалке (предположительно, под XEN-ом). Логика софта чувствительна к таймаутам порядка одной-двух секунд (управление железом через сокеты, большое количество соединений с watchdog). На стенде все пучком. В продакшене у одного клиента система периодически встает раком: многие (но не все!) соединения падают без видимых причин. Падение / восстановление соединений, в принципе, обрабатывается софтом корректно, но очень хочется докопаться до причины явления, т.к. для нормальной работы всей системы его нужно исключить совсем или хотя бы свести до контролируемого минимума.

Для этого уже длительное время мониторится все возможное, от пингов между компонентами, до нагрузки на свитчи, бесперебойность PoE и т.д. и т.п. По результатам сеть, как причину, уже, в принципе, можно исключить, и подозрение падает на виртуализатор. Это - единственная компонента, к которой нет вменяемого доступа (эксплуатируется клиентом - никого не подпускают ни под каким видом).

Рабочая гипотеза сводится к тому, что виртуализатор недокладывает тиграм мяса кратковременно перестает выделять нашей виртуалке CPU (bursting других VM?), что приводит к срабатыванию таймаутов watchdog-ов, и наш софт, "проснувшись", начинает восстанавливать соединения, которые, на самом деле, не упали. Гипотеза, конечно, очень смелая, но это - единственный способ, которым пока на стенде удается воспроизвести ситуацию. Разумеется, запросы к местным админам заканчиваются ответом: "Не, не знаем - у нас все в порядке".

Отсюда, собственно, вопрос: встречался ли кто-нибудь с тулзами, которыми в Linux можно логировать провалы в предоставлении системе CPU виртуализатором изнутри самой системы. Ясное дело, можно написать самому... Однако, если кто-то встречался с подобными штуками, буду крайне признателен за советы или, по крайней мере, пинки в нужном направлении.
  • Вопрос задан
  • 2843 просмотра
Решения вопроса 1
pi314
@pi314 Автор вопроса
Президент Солнечной системы и окрестностей
Проблема решена, гипотеза подтвердилась. Непосредственно по вопросу: мониторить проще всего с помощью:
iostat -c | awk 'NR==4 {print $5}'
Это же значение выдает и top (самое правое в строке %CPU, "0,0 st", что означает steal time), но оттуда его муторнее выдерать.

Большое спасибо всем за советы и высказанные предположения!
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
Возможно через контроль таймера
wiki.xen.org/wiki/Xen_power_management#HPET_as_bro...
но оно по дефолту отключено.
Без эталона ничего измерить нельзя.
Ответ написан
@vinca
В Linux очень много инструментов для диагностики разной сложности проблем, Вам должна помочь данная табличка и man по выбранной утилите:
www.leon.nu/content/images/2014/May/linux_debug_ut...

Обратите внимание на tcpdump, perf и возможно strace.
Ответ написан
opium
@opium
Просто люблю качественно работать
Просто говорите клиенту что проблема в его виртуализации и он со свими спецами решает её на свой стороне, это совершенно нормально, то что пытаетесь делать вы это не эффективный бред, каждой проблеме свой инструмент.
Самая частая проблема это к примеру бекап, когда делается на виртуализации бекап происходит такой сильный лаг на всех виртуалках, если скажем для сайтов которые загружены только днем , а бекап ночью все равно то для вашей системы это смерти подобно, вторая частая проблема прожорливый сосед, соседняя виртуалка выжрала все ресы и ваша система соснула таймаутов.
Ответ написан
Ernillew
@Ernillew
Администрирую *nix-системы с 1997 года
> предположительно, под XEN-ом
Для того, что бы проверить под чем именно используйте команду lscpu.
Если Xen, то вы увидите строчку
Hypervisor vendor: Xen
Если KVM, то
Hypervisor vendor: KVM
Вот если VirtualBox(бывает и такое в продакшене, сам видел), то не увидите про гипервизор, увы. Определив кто там мяса не докладывает будет легче уже.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы