Dieser Artikel stammt aus dem Buch “Windows Server 2003 – Die Expertentipps” von Microsoft Press. Wir veröffentlichen ihn hier mit freundlicher Genehmigung des Verlags.
»Ich möchte mich für den Notfall wappnen und ein Konzept erarbeiten, wie bestimmte Dienste wieder lauffähig gemacht werden können. Irgendwie finde ich aber keinen richtigen Einstieg.«
Wenn sich aus der Consultingpraxis eine erschreckende Lehre ziehen lässt, dann wohl diese: Erstaunlich viele Unternehmen sind auf Ausfälle in ihrer IT nicht vorbereitet. Zwar führen die meisten eine regelmäßige Datensicherung durch, doch schon bei der Durchsicht der Sicherungsaufträge stellt man oft leider fest, dass diese nur einen Teil der dringend benötigten Daten berücksichtigen. Die größte Schwachstelle liegt aber in der »Kehrseite« der Datensicherung – der Wiederherstellung. In vielen Fällen haben die Administratoren keine oder nur sehr vage Vorstellungen davon, was getan werden muss, um benötigte Daten und Dienste nach einem Ausfall wieder nutzbar zu machen. Anders gesagt: Sichern kann jeder – die Kunst liegt im Wiederherstellen.
Ein wesentlicher Irrtum bedarf an dieser Stelle einer Aufklärung: Das Notfallkonzept ist keine Angelegenheit der EDV-Abteilung. Es geht um nicht weniger als die Wiederherstellung der informationstechnischen Infrastruktur eines Unternehmens, daher liegt die Verantwortung für diesen Komplex bei der Geschäftsleitung. Zwar wird diese in der Regel nicht über die nötigen technischen Fachkenntnisse verfügen, sodass für die Konkretisierung und vor allem natürlich für die Umsetzung selbstverständlich die EDV-Kolleginnen und -Kollegen einzubinden sind. Doch die Definition der Anforderungen an die EDV-Qualität und die Aussage, was zu geschehen hat, wenn im Netzwerk mal nichts mehr geht, kann nur die Unternehmensführung aufstellen. Notwendig folgt aus dieser Verantwortung auch der Zwang, ein entsprechendes Budget zur Verfügung zu stellen.
Schritt 1: Kriterien festlegen
Drei Parameter beschreiben die Anforderung an die Wiederherstellung jedes Systems:
- Ausfallzeit: Wie lange darf es maximal dauern, bis ein Dienst wieder genutzt werden kann?
- Datenverlust: Welchen Umfang an verlorenen Daten kann das Unternehmen maximal tolerieren?
- Archivierung: Welche Zugriffe müssen für historische Daten gewährleistet werden?
Dabei sollte der Totalausfall des gesamten Netzwerks nicht der Ausgangspunkt der Überlegungen sein, denn er ist vergleichsweise unwahrscheinlich. Betrachten Sie stattdessen jedes System einzeln, das für Ihre Firma kritisch ist. Erst am Schluss der Konzeption fügen Sie den Plänen für die einzelnen Komponenten einen Gesamtablauf zur Wiederherstellung im Katastrophenfall hinzu.
Ausfallzeit
Die Ausfallzeit wird üblicherweise in Stunden oder Tagen gemessen. Sie gibt an, wie lange maximal auf einen bestimmten Dienst verzichtet werden kann, ohne dass das Unternehmen gravierende Schäden davonträgt. An dieser Stelle neigen viele Entscheider zu wenig realistischen Aussagen wie »Es darf überhaupt keine Ausfallzeit geben« oder zu schwammigen Vorgaben wie »Der Dienst muss so schnell wie möglich wieder da sein«. Eine Ausfallzeit von Null lässt sich nicht gewährleisten, und je näher Sie dem fiktiven Idealwert Null zu kommen versuchen, desto teurer werden Ihre Bemühungen – und zwar überproportional. Es ist daher sinnvoll, der Geschäftsleitung die Definition der Anforderungen zu erleichtern und eine Matrix vorzubereiten, in der Sie die wichtigsten Funktionen Ihres Netzwerks sowie verschiedene Klassen von tolerierbaren Ausfallzeiten vorgeben. Orientieren Sie sich bei den Funktionen dabei an Geschäftsprozessen und nicht an technischen Gegebenheiten: Ein Geschäftsführer interessiert sich meist herzlich wenig dafür, wie lange DNS ausfällt, aber es ist für ihn sehr wichtig, wie lange er auf E-Mail oder den Dateiserver verzichten muss. Die Tabelle zeigt beispielhaft, wie eine solche Matrix aussehen kann. Bitte übernehmen Sie aber nicht einfach die dort stehenden Werte, denn sie sind nur Beispiele. Machen Sie sich die Mühe und erarbeiten Sie – beispielsweise in einem gemeinsamen Workshop – die Kriterien, die für Ihr Unternehmen in der aktuellen Situation sinnvoll sind.
Dienst |
Klasse 1: Weniger als 1 Stunde Ausfall |
Klasse 2: Weniger als 4 Stunden Ausfall |
Klasse 3: Weniger als 8 Stunden Ausfall |
Exchange (Mail, Kalender, Kontakte) |
x |
||
Dateiserver (Datenablage, Abteilungsdaten, Projektdaten) |
x |
||
Data Warehouse (Auswertungen der Geschäftszahlen) |
x |
||
ERP (Warenwirtschaft, Verkaufssteuerung, Kundendaten) |
x |
Eine Beispielmatrix zur Klassifizierung der maximal tolerierbaren Ausfallzeiten für verschiedene kritische Dienste
Diese Kriterien sind aber nur die halbe Miete. Bei vielen Systemen fehlt noch eine weitere Ebene, nämlich die Angabe der Wiederherstellungsqualität in einem bestimmten Zeitraum. Dies lässt sich am Beispiel von Exchange gut illustrieren: Viele Geschäftsprozesse können heute nur sehr kurz ohne E-Mail-Kontakt auskommen. Eine schnelle Wiederherstellung der Grundfunktion des Versendens und Empfangens von Mail wird daher als sehr wichtig erachtet. In den meisten Situationen darf aber die Wiederherstellung der historischen Daten, also der Postfachinhalte der Benutzer, wesentlich länger dauern, denn zum einen verfügen viele Benutzer über eine lokale Kopie ihres Postfachs (etwa über den Cache-Modus von Outlook) und zum anderen liegt bei den allermeisten E-Mail-Nutzern der Schwerpunkt auf den aktuellen Daten und nicht auf älteren Inhalten. Für das Notfallkonzept bedeutet dies, dass in zwei Stufen vorgegangen werden kann: Schnelle Wiederherstellung der Online-Funktionen – Installieren eines Exchange-Servers – und langsamere Wiederherstellung der Altdaten – Einspielen der letzten Datensicherung parallel zum produktiven Betrieb.
Datenverlust
Anhand eines Dateiservers lässt sich aufzeigen, was mit dem »maximal tolerierbaren Datenverlust« gemeint ist. Viele Administratoren sind der Meinung, dass ihre Backup-Strategie sie vor Datenverlusten beschütze, schließlich führen sie jede Nacht eine Vollsicherung der Daten durch. Das ist löblich, doch betrachten Sie folgende Überlegung: Wenn Sie nachts um 2:00 Uhr eine Komplettsicherung ausführen und kurz vor Feierabend gegen 17:00 Uhr die Festplatten des Servers vollständig ihren Geist aushauchen, haben Sie faktisch die Daten eines gesamten Arbeitstages verloren. Wollen Sie diesen Verlust weiter eindämmen, müssen Sie zusätzliche Sicherungen einführen, was aufgrund der Netzwerk- und Serverbelastung in den meisten Firmen nicht mit den normalen Bandsicherungen möglich ist. Leider ist oft auch ein inkrementelles oder differenzielles Backup keine Alternative für eine Zwischensicherung am Tag, weil es in vielen Umgebungen nur geringe Zeit- und Lastersparnis erbringt.
Bei Dateisystemen sind aber noch andere Szenarien wichtig: Auf einem Dateiserver können Benutzer auch Daten löschen oder verändern. Muss eine solche Änderung widerrufen werden, ist oft ein aufwändiger Zugriff auf das Sicherungsband notwendig. Hier lassen sich mehrere Lösungsansätze finden. Denkbar wäre ein mehrstufiges Backup, in dem die Datensicherung zunächst auf schnelle und günstige Festplattensysteme erfolgt. Erst im zweiten Schritt werden die Daten auf das Band geschrieben. Der Vorteil liegt zum einen in der Entlastung der produktiven Server während der Bandsicherung. Ein wesentlicher Vorzug dieser Methode liegt aber in der Beschleunigung von Restore-Vorgängen: Liegen die gesuchten Daten noch auf dem Plattensystem vor, ist die Suche nach dem Tape unnötig, und das tatsächliche Zurückspielen geht drastisch schneller vor sich. Eine relativ neue Möglichkeit, Datenverluste einzudämmen, arbeitet ebenfalls auf Festplattenbasis, aber nach einem anderen Prinzip: Schattenkopien legen regelmäßige Kopien von Datenbeständen nach dem »Schnappschuss«-Prinzip an, sodass nach versehentlichen Löschungen oder Änderungen darauf zurückgegriffen werden kann. Auf Basis solcher Schnappschüsse sind in jüngster Zeit Verfahren entwickelt worden, die als »kontinuierliche Datensicherung« bezeichnet werden. Hier werden regelmäßige Schnappschüsse auf separate Server ausgelagert, sodass sie als Datensicherungsgrundlage dienen.
Berücksichtigen Sie auch hier die Fragestellung: Es geht nicht darum, welche Wiederherstellbarkeit sich die Geschäftsführung wünscht, sondern darum, welcher Datenverlust Ihrem Unternehmen wesentliche Schäden zufügt. In vielen Umgebungen dürfte für die Standard-Dateiserver der Verlust der Daten eines Arbeitstages verschmerzbar sein, bei der zentralen ERP-Datenbank kann das aber ganz anders aussehen. Auch hier sollten Sie gemeinsam eine Klassifizierung der wichtigen Datenbestände Ihres Systems durchführen. Die so erarbeiteten Vorgaben lassen sich dann in Datensicherungskonzepte umsetzen.
Archivierung
Unter dem Stichwort »Archivierung« werden ganz unterschiedliche Ansätze zusammengefasst. Durch die gestiegenen gesetzlichen Anforderungen an die Belegbarkeit von Geschäftsvorgängen sind Archivierungssysteme einer der am stärksten diskutierten Bereiche der IT-Welt geworden. Aus dem Blickwinkel des Notfallkonzepts ist hier aber ein spezieller Aspekt gemeint: Welche Wiederherstellungsqualität benötigen Sie für historische Daten?
Viele Unternehmen arbeiten mit hierarchisch organisierten Datensicherungskonzepten, in denen die regelmäßigen Sicherungen nach bestimmten Prinzipien rotiert oder archiviert werden. Im Kern geht es darum, welche Datensicherungsmedien überschrieben und welche aufbewahrt werden. Oft werden dabei Wochen- oder Monatssicherungen über einen längeren Zeitraum verwahrt, um auch auf ältere Daten problemlos zugreifen zu können.
Auch hier liegt aber die Tücke im Detail: Eine Monatssicherung umfasst nur eine Momentaufnahme des Datenzustands innerhalb des jeweiligen Monats. Daten, die zwischen zwei solchen Sicherungen angelegt und auch wieder gelöscht wurden, fallen durch das Monatsraster. Ebenso sind Änderungen innerhalb von Datenbeständen durch solche Sicherungsverfahren nicht berücksichtigt. Hier sind Kompromisse allerdings unabdingbar, denn eine komplette Versionshistorie der Daten eines Unternehmens würde riesige Datenmengen erzeugen, die wohl kaum beherrschbar und schon aus diesem Grund praktisch wertlos wären. Das Thema der Archivierung gehört sicher zu den anspruchsvollsten Teilbereichen der Datensicherung.
Schritt 2: Methoden zuordnen
Anhand der in Schritt 1 festgelegten Kriterien müssen nun für die verschiedenen betroffenen Systeme geeignete Sicherungs- und Wiederherstellungsmethoden entworfen und beschrieben werden. Dies ist in aller Regel Aufgabe der EDV-Abteilung. Sinnvollerweise sorgen Sie zunächst dafür, dass die nötige Sachkenntnis in der gebotenen Tiefe vorhanden ist – entweder durch Ausbildung des eigenen Personals oder durch externe Berater. Versuchen Sie dabei, die einzusetzenden Methoden so einfach wie möglich zu halten. Sollten Sie an einer Stelle feststellen, dass sich die Anforderungen, die in Schritt 1 definiert wurden, nicht mit vertretbarem Aufwand umsetzen lassen, so tragen Sie diese Feststellung als Rückkopplung an die Geschäftsleitung heran. Deren Alternativen bestehen dann in einer Änderung der Anforderungen oder in einer Erhöhung des Budgets (vorausgesetzt, die Anforderungen sind technisch überhaupt umsetzbar).
In dieser Phase ist es notwendig, dass Sie planvoll und konzentriert vorgehen. Versuchen Sie nicht, eine Gesamtmethode für das gesamte Netzwerk zu erarbeiten, sondern gehen Sie nach Schwerpunktthemen vor. Falls Sie über ein größeres Team verfügen, können Sie vielleicht parallel für mehrere Systeme die Methoden erarbeiten; ist dies nicht möglich, so bearbeiten Sie die Dienste nacheinander. Das Ergebnis dieser Arbeitsphase ist meist eine individuelle Zusammenstellung von verschiedenen Sicherungs- und Wiederherstellungsmethoden.
Schritt 3: Simulation des Ausfalls
Die in Schritt 2 gesammelten Methoden lassen sich nicht als endgültiges, sondern nur als vorläufiges Notfallhandbuch nutzen. Da Sie nicht der erste wären, der erst nach einem Ausfall feststellt, dass die ausgetüftelten Methoden sich im Ernstfall leider gar nicht umsetzen lassen, sollten Sie genau diesen Ernstfall simulieren. Definieren Sie ein Schadensszenario, nehmen Sie sich Ihre Sicherungsmedien und ein Simulationslabor, und versuchen Sie, die wichtigsten Dienste wieder zum Laufen zu bringen. Oft ist dabei gar keine riesige Investition nötig, denn vieles lässt sich heute durch virtualisierte Server gut mit geringem Hardwareeinsatz simulieren. Für spezielle Zwecke lässt sich oft bei einem Dienstleister das nötige Equipment für die Ausfallsimulation ausleihen.
Notieren Sie alle Auffälligkeiten, die Sie während Ihrer Simulation feststellen. Legen Sie auch Wert auf eine aussagekräftige Zeitmessung, denn sonst werden Sie nicht wissen, ob sich zeitliche Vorgaben halten lassen. Das bedeutet, dass Sie sich für die Simulation Zeit nehmen müssen und einzelne Aufgaben nicht »mal so nebenbei« erledigen können. Auch nach der eigentlichen Simulation benötigen Sie einen umfangreichen Zeitraum zur strukturierten Auswertung der Simulation. An einigen Stellen werden Sie Ihr Konzept oder Ihre Methodik überarbeiten müssen. Vielleicht ist sogar eine grundlegende Veränderung der Strategie erforderlich. Das ist sicher ärgerlich, aber es ist besser, dass dies bei einer Simulation auffällt und nicht im Ernstfall.
Die so durchgespielte Simulation ist keine einmalige Veranstaltung. Wiederholen Sie sie nach einem festen Turnus, beispielsweise jährlich. Nur wenn Sie die wichtigen Schritte üben und bei Bedarf anpassen, können Sie die nötige Handlungssicherheit erlangen, die Sie in der Ausnahmesituation brauchen.
Schritt 4: Aufbau des Notfallhandbuchs
Legen Sie Ihre Sicherungs- und Wiederherstellungskonzeption schriftlich nieder. Dies erleichtert Ihnen in der Notfallsituation das Handeln, denn Sie können auf durchdachte und erprobte Informationen zurückgreifen. Verlassen Sie sich nicht darauf, dass Sie im Kopf haben, wie es geht, denn ein Ausfall ist immer eine Stress-Situation – und wer sagt überhaupt, dass Sie gerade anwesend sind, wenn der Fall eintritt?
Es ist ein sinnvoller Gedanke, das technische Wiederherstellungskonzept zu einem Notfallhandbuch auszubauen. Diese Sorte Dokument umfasst zusätzliche Informationen organisatorischer Art, die im Katastrophenfall zu berücksichtigen sind. Wenn Sie etwa sehr umfangreiche Datenbestände haben, deren Wiederherstellung viel Zeit in Anspruch nimmt, dann kann die Konzeption eines Notbetriebes, in dem wichtige Funktionen zunächst eingeschränkt zur Verfügung stehen, das Unternehmen schnell handlungsfähig machen, während die eigentliche Restauration noch andauert.
Auch die Verantwortlichkeiten für einzelne Aufgabenbereiche sollten im Notfallhandbuch festgelegt sein. Dies betrifft einerseits natürlich die Aufgaben während der Wiederherstellung, andererseits sind aber vor allem die präventiven Tätigkeiten mit konkreten personellen Zuordnungen zu versehen: Wer kontrolliert die Datensicherungsprotokolle, wer wertet die Ereignisprotokolle der Server aus, und bei wem beginnt die Telefonkette zur Alarmierung?
Im Folgenden finden Sie einen schematischen Gliederungsvorschlag für ein Notfallhandbuch. Sehen Sie diesen jedoch nur als Grundlage an, die Sie weiter ausbauen. Genau wie keine zwei Unternehmen identisch funktionieren, kann auch kein Notfallkonzept von einem auf ein anderes Unternehmen übertragen werden. Beherzigen Sie auch, dass ein Notfallhandbuch niemals »fertig« ist: Ihre IT-Struktur entwickelt sich stetig fort, und ebenso muss das Notfallhandbuch regelmäßig aktualisiert werden. Dies kann zu festgelegten Zeitpunkten geschehen, aber es kann sich auch um eine fortlaufende Aktualisierung handeln – wichtig ist, dass Sie das Verfahren festlegen und dass die Zuständigkeit definiert ist.
1. Pflege des Notfallhandbuchs
- Zuständigkeit, Lagerung
- Verfahren bei Aktualisierung
2. Betrieb des Netzwerks
- Zuständigkeit
- Betriebs- und Sicherheitskonzept
- Technische Überwachung
3. Dokumentation des Netzwerks
- Netzwerk-Infrastruktur
- Serverübersicht
- Datensicherung
4. Notfallreaktionen
- Telefonliste intern und extern
- Notrufe Polizei, Energieversorger usw.
- Alarmierungsplan
5. Notbetrieb
- Relevante Systeme
- Aufbau des Notbetriebs
- Anfahrplan
6. Wiederherstellungskonzept
- Methodik
- Wiederanfahrplan
- Rückfallsysteme
7. Notfallübungen
- Relevante Systeme
- Turnus
- Zuständigkeit
http://faq-o-matic.net/?p=5712