Was ist ein Backup oder eine Datensicherung?
Ein Backup ist, wie der deutsche Begriff „Datensicherung“ impliziert, eine Sicherungskopie gespeicherter Daten auf einem zusätzlichen Medium wie einem Tape, einer Festplatte oder SSD, einer CD-R oder aber in der Cloud.Der deutsche Begriff für Backup ist „Datensicherung“. Hierbei handelt es sich um eine Kopie vorhandener Daten auf einem weiteren Medium, um sich vor Datenverlust durch Hardware-Ausfälle, Software-Probleme, Naturkatastrophen oder Bedrohungen von außen wie Malware zu schützen. Ein traditionelles Sicherungsmedium ist das Tape, doch auch Sicherungskopien auf HDD (auch externen Festplatten) sind weit verbreitet. Aktuell geht ein Trend in Richtung Backup in der Cloud, und in absehbarer Zukunft werden auch Datensicherungen auf SSD zunehmen.
Da auch das Backup selbst nicht vor Datenverlust gefeit ist – das heißt: Auch die Datensicherung kann schadhaft sein oder zerstört werden –, benötigt man eigentlich immer mehr als eine Kopie. Die 3-2-1-Backup-Regel gilt als wirklich sichere Backup-Strategie.
Falls der Ernstfall eintritt, für den das Backup angefertigt wurde, kommt es zum „Restore“ – der Wiederherstellung von Daten nach einem Datenverlust.
Murphy’s Law
Die Datensicherung respektive das Backup steht für das Misstrauen gegenüber Volksweisheiten: „Es wird schon alles gutgehen.“. Und obwohl vieles tatsächlich lange Zeit „gutgehen“ kann, so steht doch in der allergrößten Lebensweisheit aller Zeiten, in Edward A. Murphy’s Law: „Wenn etwas schiefgehen kann, dann wird es auch schiefgehen.“. Die letztlich einzige Chance, seine Daten nicht zu verlieren, besteht insofern in einer funktionsfähigen Kopie: den Backup-Daten.Doch diese Anforderung nach einer funktionsfähigen Kopie hat es in sich. Will man nur die Daten sichern oder auch die Programme oder vielleicht sogar der Einfachheit halber gleich das ganze System nach einem Restore wieder funktionsfähig haben? Jede dieser Varianten zieht einen Haufen an Zusatzproblemen nach sich, die aber an dieser Stelle nicht abgehandelt werden sollen.
Beim Backup stellen sich ziemlich sofort zwei Kernfragen:
- Welche Daten soll ich denn sichern?
- Wie oft muss ich meine Daten sichern?
Rechenexempel
Damit wäre man beim eigentlichen Problem des sogenannten Voll-Backups: dem Zeitaufwand, den die Datensicherung benötigt. Nimmt man einmal an, dass die Datensicherung in der Lage ist, 1 MB pro Sekunde zu sichern, so errechnet sich daraus, dass 3,6 Gigabyte (GB) Daten pro Stunde kopiert werden können. Bei einem Datenbestand von 100 GB würde der Datensicherungslauf über 27 Stunden dauern.Neben dem Problem, dass sich die Vollsicherungen zeitlich überlappen würden, würde ein Anwender bemerken, dass an seinem Rechner oder wenn die Backup-Daten über das Netzwerk laufen würden, so gut wie kein Arbeiten mehr mit dem Computer oder mit dem Server möglich ist. Beim Backup wird nämlich ein kontinuierlicher Datenstrom erzeugt, damit das Zielmedium, das Bandlaufwerk (Tape) mit bestmöglicher Performance arbeiten kann.
In einem Ethernet-Netzwerk mit 10 Mbit Bandbreite wäre diese so gut wie vollständig durch das Backup ausgenutzt. In einem 100-Mbit-Ethernet, wären ungefähr 15 Prozent der Bandbreite belegt, da durch Kodierungen nur etwa 80 Prozent der Bandbreite zur Verfügung stehen.
Auch wenn eine Sicherungsgeschwindigkeit von 1 MB/s so ungefähr vor 30 Jahren Stand der Technik war, so ändert das nichts an dem im Beispiel erkennbaren Problem: Ist die Bandbreite ausgeschöpft, so muss das Netzwerk aufgebohrt werden, dauert die Datensicherung zu lange, dann muss das Bandlaufwerk schneller werden, und wenn diese beiden Problemzonen im Griff sind, dann sind die Backup-Software, der Server, das Dateisystem, der Tape-Controller, die Treiber und anderes mehr zu langsam. Ein Kreislauf ist in Gang gesetzt, in dem beständig der Flaschenhals, also die Engstelle, verschoben werden muss.
Im Laufe vieler Jahre hat sich die Datentransferrate bei den Bandlaufwerken (Festplatten sind keine Alternative!) auf 300 MB/s erhöht. Mit 3,6 multipliziert ergibt sich ein Datensicherungsvolumen von 1.080 GB pro Stunde oder rund 1 TB pro Stunde. Wollte man nun eine Datenmenge von 1 Petabyte in 24 Stunden sichern, wären rechnerisch 42 parallel arbeitende Laufwerke notwendig. Man sieht, das führt zu keinem wirklich befriedigenden Ergebnis. Nicht zuletzt ist der Datenschutz dann schon wieder 24 Stunden veraltet.
Standardverfahren
Die Datensicherung in der technischen Form beständiger Voll-Backups verursacht mit wachsendem Datenbestand eine Dauerbaustelle. Diese Form der Datensicherung wird deshalb meist nur in Entwicklungsumgebungen oder bei Datenbanken angewendet. Hier sind die Datenmengen begrenzt und gut kalkulierbar.Sobald die Datensicherung von zig Millionen unstrukturierter Daten praktiziert werden muss, stellen Anwender schnell fest, dass Datentransferrate und Datenmenge sich nicht mehr in eine kalkulierbare Beziehung bringen lassen. Sehr viele Dateisysteme sind mit dem Browsen solcher Unmengen von Dateien überlastet, und sofern ein Bandspeicher angesichts vieler kleiner Datentransporte aus dem Streaming-Modus in den gefürchteten Start-Stop-Modus fällt, ist das Ende einer solcherart aus dem Tritt geratenen Datensicherung nicht mehr absehbar.
Abhängig von der zu kopierenden Datenmenge, muss ab einer bestimmten Datenmenge das Backup-Volumen reduziert werden. Dies gelingt auf verschiedene Weisen:
- Grundlage ist das Voll-Backup, das entweder mit einem inkrementellen Backup oder mit einem differentiellen Backup kombiniert werden kann.
- Bewährt haben sich auch Read-only Snapshots und Continuous Data Protection (CDP).
- Reicht das alles nicht aus, so hat sich als eine inzwischen auch nicht mehr ganz so neue Technik die Deduplizierung bewährt, die aber angesichts vieler schon vor dem Backup deduplizierter Daten gerne mit Kompressionsverfahren kombiniert wird.
- Als moderne Verfahren kommen CBT (Change Block Tracking) und globale Deduplizierung hinzu.
Das differentielle Backup erspart dem Anwender im Katastrophenfall, dem K-Fall, das Kopieren vieler Inkremente, da hier bei jedem Backup jeweils alle geänderten Daten seitdem letzten Voll-Backup gesichert werden.
Ein Grundproblem der Datensicherung auf Tape ist, dass diese eine gewisse Zeit dauert, in der normalerweise schon wieder neue Daten im Unternehmen generiert werden. Für Abhilfe sorgen Snapshots, die in regelmäßigen Abständen oder kurz vor Eingriffen in Systeme gezogen werden können. Der Snapshot ist keine eigentliche Datensicherung, sondern ein Merkzettel welche Dateiblöcke seit dem letzten Snapshot verändert wurden. Entweder werden dabei die alten Daten an einen anderen Ort verschoben und die neuen kommen an die alte Stelle, oder umgekehrt. Snapshots können allerdings als Snapshot Mirror auch alle Dateien als eine Hintergrund-Aktivität auf ein zweites Speichersystem kopieren.
Den anderen Methoden der Datensicherung wie CDP, CBT, Deduplizierung und Kompression ist gemein, dass sie die zu kopierende Datenmenge auf die kleinstmögliche Datenmenge reduzieren, um den Zeitaufwand zu minimieren.
Ransomware
Jahre lange galt die Datensicherung als die Methode, um auch im Ernstfall einer Zerstörung des Rechenzentrums auf eine Kopie aller Daten zurückgreifen zu können. Zur Sicherheit wurden wöchentliche, monatliche, vierteljährliche und eventuell noch ältere Kopien eingelagert.Inzwischen gilt als Standardempfehlung: Drei Kopien der Unternehmensdaten sollen auf zwei unterschiedlichen Medien erstellt werden, wobei eine Kopie offsite untergebracht wird. Wer sich allein auf Festplatten-Subsysteme verlässt, die im Unternehmensnetz als File-Shares angelegt sind, ist angesichts der Bedrohungen durch Erpressungs-Software nicht ausreichend geschützt.
Ob die Offsite-Kopie unbedingt ein Tape oder Blu-ray-Disk sein müssen, oder ob es doch gleich die Cloud als Speichermedium sein kann, kann derzeit noch nicht abschließend geklärt werden. Es spricht einiges dafür, andererseits soll die Cloud ja ein Teil des Unternehmens werden.