Bundesamt für Sicherheit in der Informationstechnik

G 4.76 Ausfall von Verwaltungsservern für Virtualisierungssysteme

Mittels mehrerer Virtualisierungsserver kann eine virtuelle Infrastruktur aufgebaut werden. Dabei werden die Virtualisierungsserver in einer Weise miteinander verbunden, dass die auf ihnen laufenden virtuellen IT -Systeme immer auf dem Virtualisierungsserver ausgeführt werden, der die für dieses IT-System optimale Performance bereitstellen kann. Kann ein Virtualisierungsserver einem laufenden virtuellen IT-System mehr Ressourcen zur Verfügung stellen (dynamische Ressourcenzuteilung, z. B. Citrix XenServer Workload Balancing oder VMware Dynamic Resource Scheduling), ist es sogar möglich dieses IT-System mittels einer Migration (Live Migration) auf das IT-System mit den freien Ressourcen zu verschieben.

Zusätzlich kann die Verfügbarkeit der virtuellen IT-Systeme durch Hochverfügbarkeitsmechanismen wie den automatischen Neustart von ausgefallenen virtuellen Maschinen gesteigert werden. Diese Funktionen erfordern bei den meisten Virtualisierungsprodukten einen zentralen Verwaltungsserver, der den Betrieb der einzelnen virtuellen Maschinen und der Virtualisierungsserver koordiniert. Virtualisierungsprodukte, die einen solchen zentralen Verwaltungsserver verwenden können, sind beispielsweise Citrix XenServer, Microsoft Hyper-V oder VMware ESX. Der Verwaltungsserver (Citrix XenCenter, Microsoft System Center Virtual Machine Manager, SUN Management Center oder Vmware vCenter) besitzt in der Regel ebenfalls eine Monitoring-Komponente, mittels derer die Funktion der virtuellen IT-Systeme und der Virtualisierungsserver überwacht werden kann.

Da über den Verwaltungsserver sämtliche Funktionen einer virtuellen Infrastruktur gesteuert und administriert werden, führt ein Ausfall dieses Verwaltungssystems dazu, dass keine Konfigurationsänderungen an der virtuellen Infrastruktur durchgeführt werden können. Die Administratoren können in dieser Zeit weder auf auftretende Probleme wie Ressourcenengpässe oder den Ausfall einzelner Virtualisierungsserver reagieren noch einen neuen Virtualisierungsserver in die Infrastruktur integrieren bzw. neue virtuelle IT-Systeme anlegen.

Auch Funktionen wie Live Migration und damit die dynamische Zuteilung von Ressourcen für einzelne Gastsysteme stehen nicht mehr zur Verfügung, da die Instanz, die solche Funktionen koordiniert, nicht mehr betriebsbereit ist. In der Folge kann die virtuelle Infrastruktur nicht mehr automatisch auf Ressourcenengpässe reagieren und sowohl die Performance als auch die Verfügbarkeit einzelner virtueller IT-Systeme werden nachteilig beeinflusst. Dies tritt insbesondere dann auf, wenn die Ressourcen der Virtualisierungsserver überbucht wurden.

Zusätzlich dient der Verwaltungsserver der Überwachung der Virtualisierungsserver und der auf diesen betriebenen virtuellen IT-Systeme. Liefert der Verwaltungsserver oder dessen Monitoring-Komponente falsche oder gar keine Daten, kann die Funktion der virtuellen Infrastruktur durch die Administratoren nicht mehr hinreichend überwacht werden. Es besteht damit die Gefahr, dass Ressourcenengpässe in der virtuellen Infrastruktur unbemerkt bleiben und nicht rechtzeitig für eine Erweiterung der virtuellen Infrastruktur gesorgt wird. Der Ausfall von einzelnen virtuellen IT-Systemen kann möglicherweise ebenfalls nicht rechtzeitig festgestellt werden, wenn die Überwachung der virtuellen Infrastruktur ausgefallen ist.

Weiterhin kann sogar der Ausfall von Virtualisierungsservern unbemerkt bleiben, wenn die auf ihm laufenden virtuellen IT-Systeme zwar auf einen anderen Virtualisierungsserver migriert worden sind und damit keine Dienste im Rechenzentrum ausfallen, der Ausfall aber wegen eines Fehlers in der Verwaltungs- und Überwachungssoftware nicht signalisiert wird. Durch die damit verbundene Herabsetzung der Redundanz kann die Gesamtverfügbarkeit der virtuellen Infrastruktur massiv verringert werden.

Beispiel:

  • Eine Organisation betreibt mehrere Virtualisierungsserver, die in zwei Farmen zusammengefasst sind. In diesen Farmen werden jeweils mehrere virtuelle IT-Systeme betrieben. Die Virtualisierungsserver sind auf zwei Farmen verteilt worden, da auf Grund unterschiedlicher Schutzbedarfsanforderungen bestimmte virtuelle IT-Systeme nicht mit anderen zusammen betrieben werden dürfen.
    Bei der Planung der beiden Farmen ist die Anzahl der jeweils notwendigen Virtualisierungsserver auf Grund einer Prognose des zukünftigen Performancebedarfs ermittelt worden. Nach einiger Zeit stellt sich jedoch heraus, dass die Prognose unzutreffend war. Es wird festgestellt, dass in der ersten der beiden Farmen ein weiterer Virtualisierungsserver benötigt wird, um die Performanceanforderungen der virtuellen IT-Systeme abzudecken.
    Die Administratoren der Virtualisierungsserver stellen nach einer Auswertung der Performancedaten der zweiten Farm fest, dass deren Auslastung weit hinter der Performanceprognose zurückliegt. Daher wird entschieden, keinen neuen Virtualisierungsserver zu beschaffen, sondern stattdessen einen aus der zweiten Farm in die erste zu verlagern.
    Nun werden die virtuellen IT-Systeme auf dem Virtualisierungsserver, der in die erste Farm verlagert werden soll, auf andere migriert und der Server wird in die erste Farm aufgenommen. In der Folge sind die Ressourcen in der zweiten Farm massiv überbucht und es kommt zu starken Performanceeinbrüchen. Dies war nach den Ergebnissen der Performanceanalyse nicht zu erwarten.
    Die Ursache für die massiven Performanceverluste der virtuellen IT-Systeme in der zweiten Farm lag darin, dass das Verwaltungssystem für diese Farm die Performancedaten der einzelnen Virtualisierungsserver falsch verarbeitet hat und deutlich zu niedrige Werte für den Ressourcenverbrauch angezeigt hat.

Stand: 12. EL Stand 2011