Weg mit den Doppelgängern

27. September 2007, 9:44 Uhr |

Deduplizierung – Für diese Aufgabe sind mehrere Lösungsansätze auf dem Markt. Network Computing hat sich unterschiedliche Produkte angesehen, die ein gemeinsames Ziel verfolgen: doppelte Daten auf den Platten eliminieren.

Die Hersteller gehen die Daten-Deduplizierung auf drei verschiedenen Wegen an: Der auf Hashs basierende Ansatz, den Unternehmen wie Data Domain, Falconstor Software (in seinerVTL-Software) und Quantum (in seiem neuen Appliances der »DXi«-Serie) nutzen, unterteilt den Backup-Strom von der Backup-Applikation in Blöcke. Für jeden davon generiert das Produkt mit SHA-1, MD-5 oder einem ähnlichen Algorithmus einen Hash. Entspricht dieser eines neuen Blocks einem Hash im Hash-Index des Geräts, dann wurden die Daten bereits gesichert, und das Gerät aktualisiert lediglich seine Tabellen, um mitzuteilen, dass diese Daten im neuen Standort ebenfalls existieren.

Der Hash-Ansatz hat ein eingebautes Skalierbarkeitsproblem. Um schnell erkennen zu können, ob ein gegebener Datenblock bereits gesichert wurde, sollte der Hash-Index sich im Arbeitsspeicher befinden. Aber so, wie die Anzahl der gesicherten Blöcke wächst, wächst natürlich auch der Index. Erreicht er eine Größe, die das Gerät nicht mehr im Speicher halten kann, sinkt die Performance, denn die Suche auf der Platte ist nun einmal viel langsamer als die im Speicher. Deshalb sind die meisten auf Hashs basierenden Systeme Appliances, welche die Menge des Arbeits- mit der Menge des Plattenspeichers für die Datenspeicherung ausbalancieren, damit die Hash-Tabelle nie zu groß wird.

Der zweite Weg ist die den Inhalt berücksichtigende Deduplizierung. Dabei muss die Backup-Appliance das Datenformat kennen, das sie aufzeichnet. Sie kann die in den Backup-Daten eingebetteten Dateisystem-Metadaten verwenden, um Dateien zu identifizieren. Anschließend führt sie einen Byte-für-Byte-Vergleich mit anderen Versionen in ihrem Daten-Repository durch, um eine Deltadatei der Änderungen zu erzeugen. Dieser Weg vermeidet eine mögliche Hash-Kollision, verlangt aber die Verwendung einer unterstützenden Backup-Applikation, damit das Gerät Metadaten extrahieren kann.

Exagrid Systems »InfiniteFiler« ist ein Beispiel einer solchen Deduplizierungs-Appliance, die ihr Wissen über übliche Backup-Applikationen wie Commvault-Galaxy und Symantec-Backup-Exec zur Identifizierung von Dateien nutzt. Nach Beendigung des Backups identifiziert die Appliance Dateien, die mehrfach gesichert wurden, und generiert Deltas. Mehrere Infinitefilers lassen sich kombinieren und unterstützen dann bis zu 30 TByte Backupdaten.

Die Deduplizierung von Exagrid erledigt einen guten Job, indem sie die eine Nachricht aus der Gigabyte großen PST-Datei speichert, aber sie kann doppelte Daten nicht über mehrere unterschiedliche Dateien hinweg eliminieren, beispielsweise identische Anhänge in fünf PSTs.

Sepatons »DeltaStor« nutzt für ihre VTLs diesen Inhalt erkennenden Ansatz ebenfalls, vergleicht die neue Datei aber sowohl mit vorangegangenen Versionen aus demselben Standort, als auch mit Versionen, die aus anderen Standorten gesichert wurden. So eliminiert diese Lösung geographisch verteilte Duplikate.

Der dritte Ansatz, den beispielsweise Diligent Technologies in ihrem »ProtectTier« nutzt, unterteilt wie die Hash-Lösung die Daten in Blöcke. Dann aber bestimmt ein proprietärer Prozess, ob ein gegebener Block einem anderen gleicht. Es folgt ein Byte-für-Byte-Vergleich der Daten in den ähnlichen Blöcken, um festzustellen, ob der Block bereits gesichert wurde.


Hard- oder Software

Backup-Targets unterscheiden sich nicht nur in ihren Deduplizierungs-Ansätzen voneinander, sondern auch in ihren physischen Architekturen. Data Domain, Exagrid und Quantum bauen monolithische Appliances, die Disk-Arrays enthalten. Die Appliances von Data Domain und Quantum können NAS- oder VTL-Schnittstellen besitzen, während es bei Exagrid immer NAS-Schnittstellen sind. Diligent und Falconstor verkaufen ihre Produkte als Software, die auf Intel- oder Opteron-Servern läuft, um ein VTL-Gateway für externen Speicher zu erzeugen.

Eine Backup-Appliance mit einer VTL-Schnittstelle scheint kultivierter und leichter in eine existierende Band-Backup-Installation integrierbar zu sein. Aber die Verwendung einer NAS-Schnittstelle gibt der Backup-Applikation mehr Kontrolle über das Management virtueller Medien. Erreicht eine Backup-Datei das Ende ihrer Aufbewahrungszeit, können einige Backup-Programme, darunter Symantecs Netbackup, die Datei aus ihrem Disk-Repository löschen. Wenn eine Deduplizierungs-Appliance diese Löschung sieht, kann sie ihren freien Speicher und Hash-Index neu zuweisen. Da Bänder nicht gelöscht werden, gibt es keinen Weg, Speicher auf einer VTL freizugeben, bis das virtuelle Band überschrieben wird.

Natürlich hat es seinen Preis, 25 TByte Daten in eine 1 TByte große Tüte zu packen – und die Rede ist nicht nur von Euro. All die Arbeit, die Daten in Blöcke aufzuteilen und zu indizieren, um die Duplikate zu entfernen, verlangsamt die Prozedur mehr als ein wenig. Eine Midrange-VTL, beispielsweise eine Overland-REO-9000, kann Daten mit 300 MByte/s oder schneller sichern. Diligent erreichte in unabhängigen Benchmarks mit ihrem »ProtectTier« Backup-Raten von 200 MByte/s, aber dies setzte einen Quad-Opteron-Server vor einem Array mit mehr als 100 Platten voraus.

Andere Hersteller lösen dieses Problem, indem sie die Daten nach dem Backup in einem separaten Prozess deduplizieren. Auf einem System mit Falconstors VTL-Software schreibt die Backup-Applikation die Daten in eine komprimierte, aber noch nicht deduplizierte virtuelle Banddatei. Dann teilt ein Hintergrundprozess die Daten auf, entfernt die Duplikate aus den Teilstücken und erzeugt ein virtuelles Band. Dieses ist letztlich der Index der deduplizierten Datenblöcke, die auf dem virtuellen Band waren. Sobald die Daten eines virtuellen Bands dedupliziert sind, wird der Speicher, den die Duplikate belegten, dem Speicher-Pool wieder zugeführt. Sepatons »DeltaStor« und Exagrid führen ihre Deduplizierung ebenfalls als Hintergrundprozess aus.

Obwohl die nachträgliche Verarbeitung die Backup-Geschwindigkeit verbessert, hat auch sie ihren Preis. Ein System, das die Deduplizierung als Post-Prozess durchführt, muss über genügend Plattenspeicher verfügen, um neben einem vollständigen Set von Standard-Backups auch deren deduplizierte Daten aufnehmen zu können. Wer einen wöchentlichen Backup-Plan mit täglichen vollständigen / inkrementellen Backups beibehalten möchte, benötigt eine vielfache Menge des Speicherplatzes auf einem System, das im Hintergrund dedupliziert. Die vollständigen Backups sind schließlich so lange aufzuheben, bis das System sie verdauen kann.

Nur, weil die Deduplizierung im Hintergrund läuft, ist die Deduplizierungs-Performance nicht zu ignorieren. Falls die VTL die Backups vom Wochenende noch nicht verdaut hat, wenn die Server Montagnacht erneut gesichert werden, wird niemand mit den Resultaten glücklich. Möglicherweise steht dann kein Speicherplatz zur Verfügung, oder die Deduplizierung verlangsamt die Backups.

Bandbreitenerhaltung
Das Sparen von Speicherplatz auf einer Backup-Appliance ist nicht die einzige Applikation der Subdatei-Deduplizierungs-Technik. Eine neue Generation von Backup-Applikationen, darunter Asigras Televaulting, EMCs Avamar-Axion und Symantecs Netbackup, nutzen auf Hashs basierende Daten-Deduplizierung, um die für das Senden der Backups übers WAN erforderliche Bandbreite zu reduzieren.

Wie konventionelle Backup-Applikationen, die inkrementelle Backups durchführen, nutzen diese Applikationen zunächst übliche Methoden wie Archivbits, das jüngste Modifizierungsdatum und das Änderungsjournal des Dateisystems, um die seit dem jüngsten Backup geänderten Dateien zu identifizieren. Anschließend unterteilen sie die Dateien in Blöcke und berechnen Hashes für jeden Block.

Die Hashes werden dann mit einem lokalen Cache der Hashes von Blöcken verglichen, die im lokalen Standort gesichert wurden. Die Hashes, die im lokalen Cache nicht erscheinen, sendet die Applikation dann gemeinsam mit Dateisystem-Metadaten zum zentralen Backup-Server. Der Backup-Server vergleicht die Daten mit seinen eigenen Hash-Tabellen und sendet eine Liste mit den von ihm zuvor noch nicht gesehenen Hashes zurück. Der zu sichernde Server sendet schließlich die durch die Hashes vom zentralen Server repräsentierten Datenblöcke zum zentralen Server.

Diese Backup-Lösungen könnten sogar noch höhere Grade der Reduktion erzielen als die Backup-Targets, indem sie nicht nur die Daten von den Servern, die auf einem einzelnen Backup-Target oder einem Cluster davon gesichert werden, deduplizieren, sondern die Daten des gesamten Unternehmens. Wenn der Chef eine 100 MByte große Powerpoint-Präsentation an alle 500 Zweigstellen sendet, wird sie dort gesichert werden, wo der Backup-Plan als Erstes startet. Alle anderen Standorte werden nur Hashes an die Hauptniederlassung senden und dann hören: »Das haben wir bereits, danke.«

Dieser Ansatz ist auch weniger anfällig für Skalierbarkeitsprobleme, von denen auf Hashes basierende Systeme betroffen sind. Da jeder Remote-Server lediglich die Hashes für seine lokalen Daten in den Cache schreibt, sollte diese Hash-Tabelle eigentlich nicht zu groß werden können. Und weil das Platten-I/O-System im zentralen Standort viel schneller ist als die WAN-Fütterung der Backups, sollte es erheblich schneller gehen, eine große Hash-Tabelle auf der Platte zu durchsuchen, als die Daten zu senden.

Obwohl Televaulting, Avamar-Axion und Netbackup-Puredisk eine ähnliche Architektur zu Grunde liegt und die Preise auf der Größe des zu deduplizierenden Datenspeichers basieren, gibt es einige Unterschiede. Netbackup-Puredisk verwendet eine feste 128-KByte-Blockgröße, während Televaulting und Avamar-Axion variable Blockgrößen nutzen, was zu besseren Deduplizierungs-Ergebnissen führen dürfte. Puredisk lässt sich von Netbackup aus verwalten, und Symantec verspricht für die Zukunft eine bessere Integration, was hoffentlich heißt, dass die Deduplizierung in Daten-Center-Backup-Jobs integriert wird. Asigra vermarktet Televaulting auch für Service-Provider, so dass kleine Unternehmen, die keine eigene Infrastruktur aufbauen wollen, Deduplizierung ebenfalls nutzen können.

Backup-Targets einschließlich Falconstors VTL, Quantums »DXi«-Serie und Data Domains Appliances, die in der Lage sind, Daten nach der Deduplizierung zu replizieren, können die gleiche Bandbreitenreduktion für Zweigstellen-Off-Site-Backups und Desaster-Recovery von Applikationen erzielen, die keine Echtzeit-Replikation verfordern.

Daten-Deduplizierung wird wohl eine Weile erhalten bleiben. Network Computing sprach mit mehreren Benutzern, die von Deduplizierungsfaktoren von 20-zu-1 oder mehr berichteten. Kleinere Organisationen sind mit der jüngsten Generation von Backup-Applikationen der Hersteller Asigra, EMC und Symantec gut bedient – sie ersetzen konventionelle Backup-Lösungen. Für mittelständische bieten sich Backup-Targets im Daten-Center an. Nur große Organisationen mit hohen Anforderungen an die Backup-Performance sollten vielleicht besser auf die nächste Generation warten.
dj@networkcomputing.de


Jetzt kostenfreie Newsletter bestellen!

Matchmaker+