понедельник, 18 сентября 2017 г.

Перезапуск Management agents в ESXi и терпение

Бывает такое, что ESXi отключается от vCenter, но виртуальные машины, запущенные на нем, продолжают работать, это означает, что проблема в сервисах гипервизора, отвечающих за коммуникацию с vCenter'ом (Troubleshooting an ESXi/ESX host in non responding state).



Самое очевидное решение, просто их перезапустить, но как раз в этом то может и крыться проблема.
Перезапустить hostd и vpxa (а именно эти сервисы отвечают за связь ESXi и vCenter), согласно Restarting the Management agents in ESXi, можно через Host Client (https://<esxihost>/ui/), подключившись к хосту через SSH или DCUI.
Как все легко, но обычно, когда есть проблемы с hostd и vpxa, то и Host Client перестает работать и выглядит вот так:



При этом по умолчанию SSH на ESXi хостах выключен. И соответственно остается только DCUI - радуемся, что у нас есть iDRAC, iLO, etc. или бежим к серверу.

Ну и здесь все не без проблем. Нажав F2 в DCUI и введя пароль нас ожидает новая проблема, ничего дальше не происходит, окошко логина висит, а в меню мы попасть не можем. Тут нам поможет только терпение, в таком состоянии логин может идти несколько минут, а бывает, что и 15-20 минут. Ждем.
Дождавшись входа на нужно найти пункт меню Troubleshooting Options и выбрать Restart Management Agents:



К сожалению, это не всегда помогает, иногда нужно подключится по SSH, почитать логи и выполнить какие-нибудь команды. Проще простого.
Для это нам нужно включить SSH через DCUI, выбираем пункт меню Troubleshooting Options и Enable SSH. Вот здесь нас снова ожидает большой сюрприз, DCUI перестает реагировать на клавиатуру. Это может продолжаться полчаса, а может и несколько часов. Терпение, ждем и SSH включен. Дело за малым, подключиться по SSH и выполнить команды:

/etc/init.d/hostd restart
/etc/init.d/vpxa restart

3 комментария:

  1. Григорий, а Вы не в курсе отчего такое поведение и задержки? Очень смахивает на какие то сетевые таймауты, но откуда такие большие цифры - пара часов.

    ОтветитьУдалить
    Ответы
    1. К сожалению, нет, не знаю. Я думал, что это связано, с включение/отключением IPv6 на хосте (https://kb.vmware.com/kb/2150794), но нет. Данную ситуацию тяжело эмулировать, я пробовал руками останавливать службы hostd и vpxa, но это не приводило к подобному поведению.

      Удалить
  2. Так же столкнулся с этим поведением пару недель назад. Жаль, что тогда не было это статьи.
    Timeout может быть связан с ожиданием ответа от как раз неработающих служб, которые надо перезапустить.
    Так как после перезапуска всё отлично работает без задержек.

    ОтветитьУдалить