Bundesamt für Sicherheit in der Informationstechnik

M 6.98 Notfallvorsorge und Notfallreaktion für Speicherlösungen

Verantwortlich für Initiierung: IT-Sicherheitsbeauftragter, Leiter IT

Verantwortlich für Umsetzung: Administrator, Leiter IT

Um die Verfügbarkeit und Integrität der Speicherlösung sicherzustellen, sind umfassende Maßnahmen zur Notfallvorsorge erforderlich. Diese können zum einen darin bestehen, rechtzeitig Fehler zu erkennen und zu behandeln und zum anderen aus den Anforderungen an den ordnungsgemäßen Betrieb resultieren. Darüber hinaus ist eine Dokumentation der Maßnahmen zur Notfallvorsorge erforderlich, um im Notfall die angemessene Behandlung sicherstellen zu können.

Fehlerbehandlung bei Speicherlösungen

In jedem IT-Betrieb treten Störungen auf, die vom sporadischen Fehlverhalten von Komponenten bis zum klar abzugrenzenden Ausfall eines Geräts reichen können. Grundlage eines sicheren Betriebs ist die Vorbereitung auf solche Störungssituationen. Hierzu gehören Ausfälle oder Beeinträchtigungen von Hardware und Software beispielsweise aufgrund von Defekten oder Kompromittierungen.

Um in derartigen Situationen effektiv und schnell reagieren zu können, müssen Diagnose und Fehlerbehebung bereits im Vorfeld geplant und vorbereitet werden. Für typische und für bereits aufgetretene Ausfallszenarien sollten Handlungsanweisungen erstellt werden. Eine kochbuchartige Dokumentation von Maßnahmen und Kommandos, die die Fehleranalyse und Fehlerkorrektur unterstützen, ist besonders hilfreich. Besteht in der Institution ein umfassendes Notfallmanagement (siehe Baustein B 1.3 Notfallmanagement ), sollte es Vorlagen für solche Wiederherstellungspläne geben, die hier genutzt werden sollten. So kann sichergestellt werden, dass das Notfallteam alle Informationen in geeigneter Form vorliegen hat.

Gerade bei komplexen Systemen wie einer Speicherlösung ist die Darstellung von Verknüpfungen und Abhängigkeiten, die sich in jeder Institution individuell gestalten, entscheidend für die Beurteilung von Störungen und schnelles und zielgerichtetes Eingreifen.

Zu den Voraussetzungen für den Erfolg der Diagnosearbeiten gehört eine geeignete Protokollierung während des Betriebs (siehe auch M 2.359 Überwachung und Verwaltung von Speicherlösungen ). Weiterhin sollten für die Fehlerbehandlung geeignete Werkzeuge genutzt werden. Dazu existieren sowohl frei verfügbare als auch kommerzielle Programme, oft auch vom Hersteller der Speicherlösung und seiner Komponenten. Die Verwendung geeigneter Werkzeuge ist umso wichtiger, da bei komplexen Lösungen nicht die Kontrolle und Steuerung der einzelnen Komponente, sondern die Übersicht über das Zusammenwirken von Hard- und Software der oftmals sehr heterogenen Gesamtlösung gefordert ist.

Die Pläne, um Störungen zu behandeln, und auch das automatisierte Vorgehen in einem Notfall (Umschwenken auf andere SAN s, Replikationstests etc.) müssen getestet werden und sollten auch im Rahmen von Notfallübungen mitgeübt werden. Bei Notfalltests und Notfallübungen mit Speicherlösungen weist die Nachbereitung eine Besonderheit auf, da durch Tests und Übungen große Datenmengen erzeugt werden. Diese Daten können besonderen Schutzbedarf bezüglich Vertraulichkeit aufweisen oder personenbezogene Daten enthalten. Insbesondere in einem solchen Fall, aber auch bei normalem Schutzbedarf müssen die Daten gemäß den Anforderungen nach Abschluss der Übung sicher gelöscht werden (siehe Maßnahme M 2.527 Sicheres Löschen in SAN-Umgebungen ). Der hierdurch notwendige zusätzliche Aufwand muss in der Planung dieser Tests und Übungen berücksichtigt werden. Auch die Wiederanlauf- und Wiederherstellungspläne müssen die Löschung überflüssiger Daten, die im Rahmen der Bewältigung des Notfalls erzeugt wurden, mit berücksichtigen.

Es muss klar sein, dass gerade bei Speicherlösungen nach Störungen und Notfällen in Verbindung mit Datenverlust eine Rückführung in den Normalbetrieb nur dann möglich ist, wenn eine brauchbare Datensicherung bereitsteht. Eine Prüfung der Wiederherstellbarkeit von Datensicherungen (siehe M 6.22 Sporadische Überprüfung auf Wiederherstellbarkeit von Datensicherungen ) muss regelmäßig durchgeführt werden.

Die Vorgehensweise bei der Fehlerbehandlung von Speicherlösungen lässt sich in die Bereiche Administration, Performancemessung und Diagnose unterteilen. Nachfolgend werden die jeweils zu berücksichtigenden Aspekte dargestellt:

Administration

In einem Betriebshandbuch sollten alle notwendigen Kommandos zur Administration und Konfiguration dokumentiert werden.

Folgende Bereiche sind zu berücksichtigen:

  • Einrichten von (administrativen) Benutzern, Vergabe von Berechtigungen
  • Update von Firmware und Betriebssystem
  • Konfiguration
    • der Speicherressourcen
    • der administrativen Zugänge
    • der angeschlossenen Server und Sicherungsgeräte
  • Protokollierung

Performance

Folgende Aspekte sollten für Beobachtungen und Aussagen über die Performance berücksichtigt werden:

  • Belegung der Medien (pro logischem oder physischem Gerät)
  • Durchsatz pro Interface ( IP , FC etc. ), bezogen auf das Gesamtsystem
  • Statistikinformationen zur Nutzung

Diagnose

Alle für die Fehlerdiagnose ("Debugging") notwendigen Kommandos sowie die zu erwarteten Aussagen und ihre jeweilige Bedeutung sollten dokumentiert sein. Dazu zählen beispielsweise Aussagen über die Zustände der verschiedenen Systemkomponenten und Schnittstellen sowie über die aktuellen Konfigurationen.

Unter anderem sind folgende Informationen für die Fehlerdiagnose relevant:

  • Status der Netz-Interfaces und der sonstigen Anschlüsse
  • Status der Netzdienste ( TCP / IP bei NAS -Systemen, spezifische Informationen beim SAN , z. B. Status der SAN -Switches)
  • Status zusätzlicher Komponenten ( z. B. Storage-Virtualisierung)
  • Gesamtkonfiguration als Überblick
  • Prozesse
  • Zuordnung
  • Angemeldete Benutzer
  • Protokollierung (Nutzung der Log-Level, Interpretation der Log-Informationen)

Notfallvorsorge zur Steigerung der Verfügbarkeit

Durch die Planung des Vorgehens bei Störungen kann die Zeit zur Wiederherstellung minimiert und unter Umständen eine Lösung überhaupt erst ermöglicht werden. Die Planungen sind mit dem übergreifenden Notfallmanagement abzustimmen und sollten sich am allgemeinen Notfallkonzept orientieren (siehe Baustein B 1.3 Notfallmanagement ). In dem allgemeinen Notfallkonzept werden generelle Vorgaben für Notfalldokumente im gesamten IT-Betrieb formuliert. Diese legen idealerweise einheitliche und verbindliche Anforderungen beziehungsweise Aufbau, Inhalt und Form fest. Allerdings sollten bei dieser Eingliederung in das allgemeine Notfallmanagement die Besonderheiten bei der Notfallvorsorge und Notfallbehandlung von Speichersystemen nicht unbeachtet bleiben. Die genauen Verfügbarkeitsanforderungen an die Speicherlösungen müssen klar definiert sein.

Folgende Fragestellungen sind für die Notfallvorsorge relevant:

  • Was sind Gründe für mögliche Störungen?
    • Hardwaredefekte
    • Zu geringe Dimensionierung (Störung oder Ausfall bei Steigerung der Nutzung)
  • Welche Anforderungen bestehen an das Monitoring zur Vermeidung von Notfällen?
  • Wie kann eine frühzeitige Störungserkennung sichergestellt werden?
  • Zusammenstellung der Informationen, die von den für den Betrieb der Speicherlösungen verantwortlichen Stellen immer ausgewertet werden
  • Welche Vorsorgemaßnahmen können getroffen werden?
    • Vorhalten von Ersatzgeräten
    • Vorhalten von Ersatzteilen
    • Umsetzung von Failover-Lösungen, die es ermöglichen, im laufenden Betrieb auf ein Alternativgerät umzuschalten.
    • Abschluss von Wartungsverträgen
    • Ausbildung der Mitarbeiter
    • Umsetzung von Maßnahmen zur Replikation
    • Verbindungen sind redundant auszulegen
    • Redundante Verbindungen über unterschiedliche Trassen
    • Unterschiedliche Carrier pro Verbindung
    • Ausreichende Dimensionierung von Leitungskapazitäten (Notfall)
    • Umsetzung von Maßnahmen zur Daten-Recovery
    • Erstellung eines Betriebshandbuchs
    • Erstellung eines Notfallplans
    • Aufrechterhaltung der Datenkonsistenz
    • Wird die Speicherlösung als Archiv genutzt, das nicht mehr gesichert wird, muss mindestens eine zusätzliche Kopie jedes Objekts vorhanden sein.
  • Datenhaltung
    • Für den Notfall ist im Betreiberkonzept festzuhalten, welche Daten gespiegelt werden (redundant vorgehalten werden) bzw. welche Daten im Notfall aus dem vorhandenen Backup wiederhergestellt werden müssen. Die Grundlage für diese Vorgehensweise ergibt sich aus den vorhandenen SLAs.
    • Redundante Auslegung der IP- und FC-Netze
    • Redundante FC-Topologie unter Beachtung einer eineindeutigen WWN Vergabe
    • Redundante LAN-Topologie unter Beachtung einer eineindeutigen IP-Adressvergabe
    • Die Ausfallsicherheit von Segmentierung und Zoning ist durch redundante Auslegung der entsprechenden Netzkomponenten sicherzustellen.
  • Besonderheiten bei Cloud-Speicherlösungen
    • Beim Einsatz von Cloud-Speicherlösungen ist darauf zu achten, dass die Orchestrierung ausfallsicher umzusetzen ist.
  • Welche Service Level Agreements (SLAs) sollten getroffen werden?
    • Hardwarelieferanten (beispielsweise Vor-Ort-Austausch mit Zeitgarantie für bestimmte Komponenten)
    • Verwaltung der Service Level Agreements: Es muss sichergestellt werden, dass SLAs rechtzeitig verlängert werden beziehungsweise rechtzeitig an die aktuellen Anforderungen angepasst werden.

Weitere Hinweise zur Notfallvorsorge und Notfallreaktion, gerade wenn an das SAN höherer Schutzbedarf bezüglich Verfügbarkeit besteht, sind im Hochverfügbarkeitskompendium auf den Internetseiten des BSI zu finden.

Verwaltung von Service Level Agreements:

SLA s werden in der Regel für einen begrenzten Zeitraum abgeschlossen und nicht immer automatisch verlängert. Darüber hinaus passiert es häufig, dass die Preise für die Verlängerung von SLA s für längere Zeiträume deutlich steigen oder dass diese für veraltete Systeme gar nicht mehr angeboten werden. In diesem Fall sollte geprüft werden, ob möglicherweise eine Investition in neue Speichersysteme langfristig kostengünstiger ist. Dies muss rechtzeitig berücksichtigt und geplant werden.

Notfallvorsorge bei Cloud-Speicherlösungen

Bei der Nutzung von Cloud-Speicherlösungen sollte sich eine Institution bereits bei der Auswahl eines Dienstleisters und der entsprechenden Vertragsgestaltung (M 2.356 Vertragsgestaltung mit Dienstleistern für Speicherlösungen und M 2.541 Vertragsgestaltung mit dem Cloud-Diensteanbieter ) über Notfallvorsorgemaßnahmen des Anbieters erkundigen. Bedingt durch das starke Abhängigkeitsverhältnis von Cloud-Serviceprovidern ist die Notfallvorsorge allein aufseiten der nutzenden Institution nicht ausreichend. Weitere Hinweise zur Notfallvorsorge bei Cloud-Speicherlösungen finden sich unter anderem in M 6.155 Erstellung eines Notfallkonzeptes für einen Cloud Service .

Dokumentation zur Notfallvorsorge

Das genaue Vorgehen in bestimmten Notfallsituationen muss in einem Notfallplan beschrieben werden. Das Vorgehen sollte folgende Punkte beinhalten:

  • Wie ist eine Diagnose durchzuführen? Folgende Informationen können dabei behilflich sein:
    • Statusabfragen
    • Anzeige der Konfiguration
    • Anzeige der laufenden Prozesse
    • Angemeldete Benutzer
    • Protokollierung
  • Welche Entstörungsprozeduren müssen durchgeführt werden?
    • Vorgehen bei Ausfall der kompletten Speicherlösung (Wiederherstellen von Betriebssystem und Konfiguration)
    • Vorgehen bei Ausfall von Teilkomponenten, beispielsweise Festplatten
  • Wer ist im Schadensfall zu benachrichtigen?
    • Server- und Anwendungsadministration
    • Hardwarelieferant/Ansprechpartner für den Wartungsvertrag
    • Alle notwendigen Informationen zu den Wartungsverträgen und Service Level Agreements, Hotline-Nummern, Kunden- oder Geräteidentifikationsnummern
  • Welche Dokumente müssen im Schadensfall verfügbar sein?
    • Wartungsverträge
    • Grundkonfiguration zur (Wieder-)Inbetriebnahme
    • Änderungen der Grundkonfiguration, um die aktuelle Betriebskonfiguration einzurichten
    • Regelwerk für die Zugriffskontrolle (Access Control Lists)
    • Eingerichtete Benutzer und Berechtigungen
    • Passwörter für Notfallzugriffe
  • Wie verläuft der Wiederanlauf?
    • Abhängigkeiten zu anderen Systemen des IT-Verbunds
    • Neuinstallation des Betriebssystems und Konfiguration
    • Zurückspielen einer gesicherten Konfiguration
    • Möglichkeiten eines eingeschränkten Betriebs
    • Remote-Betrieb an einem anderen Standort

Die für die Notfallvorsorge notwendigen Vorgehensbeschreibungen sind möglichst sorgfältig zu erstellen und regelmäßig zu erproben. Eventuell müssen variierende Vorgehensweisen bei unterschiedlichen Gerätetypen und Betriebssystemen berücksichtigt werden.

Die Dokumentation sollte keinesfalls ausschließlich elektronisch vorliegen. Handlungsanweisungen sollten mindestens auch in Papierform existieren. Gegebenenfalls können Konfigurationsdateien auch auf einen externen Datenträger wie CD-ROM oder USB -Stick gesondert hinterlegt werden.

Die wahrscheinlich wichtigste Maßnahme zur Steigerung der Verfügbarkeit ist die Vorhaltung von Ersatzteilen, um bei Hardwaredefekten die Ausfallzeiten zu minimieren. Alternativ oder auch als Ergänzung hierzu können Wartungsverträge mit dem Hersteller abgeschlossen werden, die durch garantierte Reaktions- oder sogar Reparaturzeiten die Verfügbarkeit sicherstellen. Hierdurch lassen sich Kosten für die Lagerhaltung reduzieren oder eine noch höhere Hardwareverfügbarkeit erreichen. Im Rahmen eines solchen Vertrages kann auch die Versorgung mit Software-Updates geregelt werden (Softwarewartung). Gegebenenfalls ist im Rahmen des allgemeinen Notfallmanagements ein gestaffelter Wiederanlauf für die Speicherlösung vorgesehen. In diesem Fall wird erst ein Teil der Speicherlösung wieder in Betrieb genommen, sodass die zeitkritischsten Geschäftsprozesse im nötigen Umfang eines Notbetriebs laufen können. In diesem Fall existieren neben den Wiederherstellungsplänen auch Wiederanlaufpläne, die den gleichen Anforderungen unterworfen sind, wie die Wiederherstellungspläne.

Durch den Einsatz von Speichervirtualisierung ergeben sich neue Möglichkeiten zur Notfallvorsorge. So kann beispielsweise eine redundante Speicherung auf verschiedenen Speichersystemen durch die Speichervirtualisierung (Distributed LUN ) gewährleistet werden. Auf diesem Weg wird ein Hot-Standby der Speicherlösung realisiert, durch das Ausfallzeiten fast gänzlich vermieden werden können.

Prüffragen:

  • Existieren Handlungsanweisungen in Form von Maßnahmen und Kommandos, welche die Fehleranalyse und Fehlerkorrektur unterstützen?

  • Werden für die Fehlerbehandlung geeignete Werkzeuge genutzt?

  • Existiert ein Notfallplan für die eingesetzten Speicherlösungen, der das genaue Vorgehen in bestimmten Notfallsituationen beschreibt?

  • Werden die für die Notfallvorsorge notwendigen Vorgehensbeschreibungen regelmäßig erprobt?

  • Werden bei den Tests und Übungen sowie im Notfall selbst hinterher die überflüssigen Daten gemäß ihrem Schutzbedarf gelöscht?

Stand: 14. EL Stand 2014

Hinweis zur Verwendung von Cookies

Um unsere Webseite für Sie optimal zu gestalten und fortlaufend verbessern zu können, verwenden wir Cookies. Durch die weitere Nutzung der Webseite stimmen Sie der Verwendung von Cookies zu. Weitere Informationen hierzu erhalten Sie in unserer Datenschutzerklärung.

OK