Проблемы с Ovirt HostedEngine, почему переустановка хоста не помогает?
Добрый день.
Наблюдаются проблемы с Ovirt версии 4.2. Вопрос по одной из них.
Установлено 2 хоста, Engine запущен в режиме HostedEngine. Проблема в том, что один их хостов не может определить статус VM HostedEngine. И если VM запущена на нем, через некоторое время он ее отправляет в ребут.
Если запущена на другом хосте - никаких проблем не возникает.
При этом, запрос состояния hosted-engine --vm-status выводит следующее:
Engine status : {"reason": "failed liveliness check", "health": "bad", "vm": "up", "detail": "Up"}
В логах хоста (/var/log/messages):
error : qemuDomainAgentAvailable:6946 : Агент гостя не отвечает: QEMU guest agent is not connected
В /var/log/ovirt-hosted-engine-ha/agent.log:
hosted_engine_ha.agent.hosted_engine.HostedEngine::(_monitoring_loop) Current state EngineStarting (score: 3400)
В логах Engine есть такое(/var/log/messages):
[9B blob data]
code 400, message Bad HTTP/0.9 request type ('\x16\x03\x03\x00\xb9\x01\x00\x00\xb5\x03\x03[\x91\x02r!d\x1f\x00\x95\x1a\x93\x13\x10N\xe9t\xb2\xc9\x92^r') и т.д.
Это же вываливается при выводе команды systemctl status ovirt-provider-ovn -l
Если я правильно понимаю, то проблема как раз в ovirt-provider-ovn. Причем, насколько я понял, проблема в несогласованности запросов, типа на http шлется запрос https и наоборот. Но почему со вторым хостом все в порядке? Набор пакетов, версий и т.д. одинаковые. Переставлялись оба хоста, причем из интерфейса Engine - результат тот же.
Заранее благодарю за наводку/решение.
Возможно, ни первое, ни второе из логов не связано с проблемой. Посмотрите в engine.log на HostedEngine. Что там в те моменты, когда его перекидывает на другой хост.
ubx7b8, Да, проблема точно не связана с ovirt-provider-ovn. С ним разобрался, настроил, все работает, никаких ошибок. Но вот основную проблему решить так и не удалось. Писал даже на ovirt.org, единственное, что подсказывает уважаемый Simone Tiraboschi:
vm: up refers to vm status at virt level polling a local vdsm, health: bad refers instead to a live check on the engine portal over http.
Bad name resolution or network routing issues can cause this. I'd suggest to check if everything is fine on network side.
То есть, какая-то проблема с сетью.
Но, никак не могу найти проблему. Сетевые настройки на обеих хостах идентичны (ip конечно разный). Все нормально резолвится, пингуется и т.д. Уже обновил до последней версии ветки 4.3, те же самые проблемы. Куда рыть - непонятно. Получается, что когда HostedEngine запущен на проблемном хосте (например вручную туда ее можно мигрировать), определяется статус как state=EngineStarting. Посмотрю еще engine.log Если что-то там есть интересное, выложу сюда.
Отвечу сюда сам, может кому-то поможет. Проблема была в одной неверной записи в hosts данного хоста. Запись FQDN HostedEngine вела по неправильному IP адресу. Все.