понедельник, 12 октября 2009 г.

HA Deepdive: Primary nodes

  1. Slots
  2. Primary nodes
  3. Isolation
  4. Host selection
HA кластер состоит из максимум 32 узлов, которые в свою очередь подразделяются на Primary и Secondary. Primary узлы являются "управляющими" и держат у себя информацию о конфигурации и состоянии кластера, синхронизируя между собой.

Primary узлы посылают хартбиты (heartbeat) только Primary узлам, Secondary узлы посылают хартбиты тоже только Primary узлам. По умолчанию 1 хартбит в секунду, но это конфигурируемый параметр: das.failuredetectioninterval.

Первые 5 узлов, включенные в HA кластер автоматически становятся Primary, а все остальные Secondary. Но если производится действие "Reconfigure for HA", то узлы назначаются Primary и Secondary случайным образом. vSphere клиент не показывает, является ли выбранный узел Primary или Secondary, есть только одна возможность это увидеть - из сервис-консоли:
cat /var/log/vmware/aam/aam_config_util_listnodes.log

или

/opt/vmware/aam/bin/Cli (ftcli on earlier versions)
AAM> ln

Распространена ошибка, что при падении Primary узла происходят перевыборы. Не в этом случае. Перевыборы Primary (выдвижение Secondary узла на Primary роль) происходят только при введении Primary узла в Maintenance Mode, отключении от кластера (disconnect) или удалении из кластера.

Если же все 5 Primary узлов упали одновременно, то рестарта виртуальных машин не произойдет, HA требует наличия хотя бы одного Primary узла для работы. Именно поэтому максимум 4 хоста могут выйти из строя в HA кластере.

Это правило, примененное к блейд-серверам, модифицируется следующим образом: разделяйте блейды из одного кластера по разным корзинам и не включайте в HA-кластер более 4х блейдов из одной корзины.

Один из Primary узлом получает роль Fail-over coordinator или Active Primary. Именно он управляет рестартом виртуальных машин при выходе узлов из строя. Если падает Active Primary, то эту роль берет на себя один из оставшихся Primary узлов.

Оригинал - Duncan Epping.

2 комментария:

  1. кстати поправочка:
    не
    "Именно поэтому максимум 4 хоста могут выйти из строя в HA кластере."
    а
    "HA гарантированно переживет смерть любых 4х хостов".

    ОтветитьУдалить