понедельник, 16 ноября 2009 г.

Грабли: отваливаются бэкапы, миграция и клонирование ВМ etc

Проблема: начали отваливаться бэкапы в процессе, невозможно склонировать ВМ или перенести на другой datastore. Файловые операции в консоли ESX отваливаются по таймауту.

Причина: скорее всего одна из ВМ решила полностью нагрузить дисковую систему и в частности datastore, на котором и наблюдаются проблемы. Напоминаю, что нагрузка на дисковую систему измеряется не в сотнях мегабайт в секунду, а в операциях в секунду - IOPS.
Как пример из реальной жизни - машина с syslog сервером, из-за которой все и случилось, генерировала примерно 1.5-2 мегабайта в секунду. Вроде бы смешная цифра для Fibre Channel дисковой полки с 10 дисками, но эти 2 мегабайта в секунду с другой стороны равнялись 1200 IOPS - а больше дисковая полка просто не могла выдать.

Решение: размещение выскоконагруженных по дисковым операциям ВМ на выделенных datastore, размещающихся на выделенных дисковых группах. Почему критичны выделенные дисковые группы в данном случае? При размазанных дисковых группах, когда LUN'ы нарезаются на одной большой дисковой группе, стоит вырасти дисковой нагрузке от одной ВМ - ВСЕ datastore на LUN'ах с этой дисковой группы просядут.

Как отследить машинку-негодяйку? В первую очередь esxtop, разумеется. Но значительно удобнее в таких случаях использовать Veeam Monitor, у которого, кстати, есть Free Edition.

Комментариев нет:

Отправить комментарий