Zur wachsenden Bedeutung von skalierbaren Datei- und Objektspeicher-Systemen

Entwickler und Anwender fordern von der IT-Infrastruktur mehr denn je Flexibilität, Leistung und Verfügbarkeit. Fast jede Branche ist davon berührt, was mit einer zunehmenden Anzahl von neuen Apps, Datenformaten, Benutzern und deren sich schnell ändernden Workload-Profilen von IoT- oder Data Analytics-Projekten einhergeht. Mit dem starken Anwachsen von semi- und unstrukturierten Datensätzen im Multi-Petabyte-Bereich stößt in diesem Umfeld das klassische Array-Modell mit NAS- Storage bereits seit geraumer Zeit an gewisse technische und wirtschaftliche Grenzen: dies betrifft neben den Kosten beim Kapazitätsausbau in Verbindung mit der erforderlichen Datenverfügbarkeit (n-Site-Umgebungen, Datenreplikation, Rebuild Problematik mit RAID 6, begrenzte Scale-out-Fähigkeiten, Lizenzkosten, Management-Overhead etc.) auch den skalierbaren Durchsatz, also die Performance. Software-definierter Speicher (SDS) gewinnt in diesem Zusammenhang deshalb an Bedeutung.

Objekt- oder File-Storage?

Anders als Transaktions-orientierte Datenbanken mit ihren spezifischen Anforderungen an latenzarme Leistung (IOPS) sowie Datenkonsistenz, wurden Objektspeicher-Systeme primär auf massive Skalierbarkeit hin entwickelt und liefern über Geo-Datenreplikation (schreibt identische Kopien auf mehreren Knoten und kann an mehreren Standorten eingesetzt werden) bzw. Erasure Coding (schreibt auf mehrere Knoten innerhalb des Clusters; schreibt aber auch auf Knoten außerhalb des Clusters, um mehrere Knotenausfälle zu erlauben) eine sehr hohe Verfügbarkeit z.B. im Rahmen von Hardwareausfällen. Dies ist z.B. bei ‚Swift’ der Fall; hier werden Objekte durch das Speichern mehrerer Kopien von Daten so abgesichert, dass bei Ausfall eines Knotens die Daten von einem anderen Knoten abgerufen werden können. Diese Architektur ist besonders für stark verteilte Infrastrukturen mit vielen unstrukturierten Daten an weltweiten Standorten geeignet.

Da die Objektspeicherung typischerweise auf Standard-Hardware läuft, entfällt die Notwendigkeit, proprietäre Speicherserver einzusetzen. Hier kann die Objektspeicherlösung die Kosten in Bezug auf weniger Verwaltungsaufwand sowie Strom & Kühlung senken; auf Grund der inhärenten Datenbeständigkeit ist eine maximale Produktivität gewährleistet. Traditioneller Speicher wird mit zunehmender Anzahl von Systemen und Tools hingegen immer komplexer zu verwalten. Die Objektspeicherung optimiert durch die Konsolidierung von Daten innerhalb eines logischen Systems, unterstützt durch die Nutzung integrierter Verwaltungstools wie automatisiertes Disaster Recovery zwischen den Standorten.

Objektspeicher wurden konzipiert, um sehr hohe Kapazität zu unterstützen (bis in den Exabyte-Bereich) und eignen sich für Workloads, die eine hohe Bandbreite benötigen; weniger geeignet sind sie für transaktionsorientierte Umgebungen, bei denen hohe I/O-Leistung mit Latenzzeiten im sub-millisekunden-Bereich gefordert ist. Mit der Einführung von Public Cloud-basierten Objektspeicherdiensten – wie Amazon S3, Azure Blob Storage oder Google Cloud Storage – wuchs die Beliebtheit von Objektspeichern sowohl im Unternehmen als auch in der Entwicklergemeinde. Verwendet wird die AWS S3-API, so dass implizit eine Cloud-native Anbindung existiert; ferner sind Datenverwaltungsfunktionen verfügbar, um die Datenplatzierung zu vereinfachen; Cloud und on-premise Speicher können zu integrierten Teilen eines globalen Namensraums konfiguriert werden.

Filesystem-Lösungen als verteilte (Distributed) Scale-out NAS Implementierungen verwenden ein paralleles Dateisystem, das mehrere Speicherknoten umfasst. Dabei wird über die Single Namespace Architektur ein logischer Speicherpool präsentiert, um den Datenzugriff mit hoher Bandbreite (GB/s) für n-Hosts parallel bereitzustellen. Die Daten werden über mehrere Knoten im Cluster verteilt; neben Durchsatz wird eine hohe Verfügbarkeit und Ausfallsicherheit erreicht.

Wichtige Leistungsmerkmale von SDS-Lösungen mit Objekt und File-Support:

Skalierbarkeit: Diese bezieht sich in der Regel auf Kapazität und Leistung, hier Durchsatz (X-rate), Filegröße und Umfang; und zwar für jeden Parameter unabhängig voneinander.
Kapazitätsoptimierung: Datenreduktionstechnologien (Deduplizierung / intelligente Kompression) und Data-Mover/Migration-Engines, die automatisiertes Tiering zwischen HDDs, Flash, Tape und Cloud Storage (Public) unterstützen.
Datenverfügbarkeit: Policies-basierte Funktionen wie Replikation- und Löschcodierung auf Benutzer-, Container- oder Objektebene.
Automatisiertes Data Life-Cycle Management (DLM): Richtliniengesteuerte DLM-Funktionen zur Verwaltung, Löschung und Reparatur (Self-Healing) von Daten steigern die operationale Effizienz bei der Datenverwaltung im Multi-Petabytes-Bereich.
Benutzer-zentriertes Daten- und Speichermanagement; Reporting: einfache, zentrale Oberfläche, die ein detailliertes Monitoring und Reporting ermöglicht.

Fazit

File-Storage ist immer noch das gängige Verfahren zur Verwaltung unstrukturierter Daten. Im Gegensatz zum hierarchischen NAS verwaltet die Objektspeicherung alle Objekte in einem flachen Filesystem, dass sich entsprechend einfach erweitern lässt; zudem lassen sich Datei- und Objektdaten innerhalb eines Speicherpools konsolidieren. Die Herausforderung besteht zurzeit u.a. darin, möglichst robuste und standardisierte Schnittstellen (S3 ist nicht S3… verschiedene Dialekte) zu Anwendungen wie z.B. Archivlösungen zu liefern (Stichwort: Compliance). Im Vergleich zu gängigen Dateiprotokollen wie NFS entwickelt sich die S3-API auch permanent weiter. Dieser Unterschied wird wichtig, wenn eine Anwendung aufgrund von S3-API-Inkompatibilität Probleme macht. Ein weiterer Punkt betrifft die Verbindung von File (NAS) und Cloud-Objektspeicher über Gateway-Funktionalitäten, die nicht immer zufriedenstellend alle Protokolle- und Workloads wie General-purpose Enterprise Fileshare in optimierter Weise unterstützen (NFS, SMB, skalierbare Performance, robuste Stabilität).

Die Einschränkungen traditioneller Network Attached Storage (NAS)-Systeme, die dateibasierte Workloads bedienen, veranlassen Unternehmen jedenfalls, nach objektbasierten Speicherlösungen zu suchen, die Filesystem-Funktionen unterstützen. Eine objektbasierte Speicherlösung mit integriertem File-Management macht den Übergang vom NAS interessant. Da die objektbasierte Speicherung wie gesehen an Bedeutung gewinnt, stellt die Public Cloud derzeit eine der zentralen Herausforderung für objektbasierte SDS-Anbieter dar. Hier dürfte am meisten Arbeit zu leisten sein, auch wenn es darum geht, einen sicheren und effizienten Migrationsweg zwischen on-premise- und hybriden- und Multi Cloud-Architekturen zu schaffen. Shared File Storage Services in der Cloud sind zum Beispiel aus Anwendersicht derzeit verstärkt nachgefragt.

Zur wachsenden Bedeutung von skalierbaren Datei- und Objektspeicher-Systemen

Blaupause für Skalierbarkeit – Lösung für exponentielles Datenwachstum

Die Architektur eines optimal skalierbaren Objektspeichers von innen betrachtet

Welche Rolle Air Gapping für Cyber-Resilienz spielt

Zur wachsenden Bedeutung von skalierbaren Datei- und Objektspeicher-Systemen

Maximieren Sie das Potenzial Ihrer Daten

Bleiben Sie auf dem Laufenden!

Blaupause für Skalierbarkeit – Lösung für exponentielles Datenwachstum

Die Architektur eines optimal skalierbaren Objektspeichers von innen betrachtet

Welche Rolle Air Gapping für Cyber-Resilienz spielt

Bleiben Sie auf dem Laufenden!

Maximieren Sie das Potenzial
Ihrer Daten