понедельник, 16 июля 2012 г.

Изменения в обработке отказа СХД в vSphere 5.0 U1

О том какие бывают типа отказа СХД и чем отличает APD от PDL можно прочитать в данной статье.

В vSphere 5.0 НА никак не реагировал на изменения состояние СХД, и если у ВМ пропадал доступ к данным считалось, что так и должно быть, и ВМ продолжит работать или будет перезапущена администратором после решения проблем с СХД.

В vSphere 5.0 U1 был представлен новый механизм, который позволяет менять поведение НА в случае потери доступа (PDL) к массиву. Управлять реакцией НА в можно с помощью двух опций: disk.terminateVMOnPDLDefault, параметры которой редактируются в файле /etc/vmware/settings, и das.maskCleanShutdownEnabled, параметры которой редактируются в расширенных свойствах НА кластера.

VMware рекомендует выставлять параметры обоих опций всегда в True, тогда в случае потери доступа к массиву, виртуальная машина будет выключена в момент обращения к потерянному массиву (за это отвечает первая опция), а при восстановлении доступа к массиву будет перезапущена с помощью НА (за это отвечает вторая опция, которая и позволяет НА отличать какая машина была выключена администратором, а какая была выключена в результате PDL).

Также при наступлении аварийной ситуации в логе vmkernel будут появляться следующие сообщения:

2012-03-14T13:39:25.085Z cpu7:4499)WARNING: VSCSI: 4055: handle 8198(vscsi4:0):opened by wid 4499 (vmm0:fri-iscsi-02) has Permanent Device Loss. Killing world group leader 4491
2012-03-14T13:39:25.085Z cpu7:4499)WARNING: World: vm 4491: 3173: VMMWorld group leader = 4499, members = 1


Оригинал: Duncan Epping

6 комментариев:

  1. Странно, а почему данные ну очень правильные опции не включены по умолчанию? Может в данный момент эта фича обкатывается и будет доступна в следующем релизе?
    И что с таймаутами, через какой промежуток времени СХД будет считаться безнадежно потерянной?

    ОтветитьУдалить
  2. >Странно, а почему данные ну очень правильные опции не включены по умолчанию?

    Предполагаю, чтобы не было внезапных сюрпризов админу после апгрейда.

    ОтветитьУдалить
  3. Это тестируется, о будущих улучшениях, расскажу как только такая информация станет доступной.
    Таймаут стандартный - как только login и heartbeat не проходят, а линк переходит в состояние down - СХД считается мёртвой.

    ОтветитьУдалить
  4. А в третьем абзаце версия правильно написана?

    >>В vSphere 5.1 U1 был представлен новый механизм...
    ------------^^^

    ОтветитьУдалить
  5. Да не за что.
    Столкнулся с этими параметрами в рекомендациях EMC при тестировании их продукта VPLEX, поэтому внимательно смотрел на версии vSphere.

    ОтветитьУдалить