Speicherengpässe mit NVMe-oF beseitigen

Der Vorteil von NVMe-oF: Geringe Latenz, hohe Skalierbarkeit und hohe Effizienz

Latenz ist seit jeher die Achillesferse der Speichernetzwerke. Als es noch rotierende Festplatten gab, war eine Verzögerung von einigen Millisekunden nicht weiter tragisch, da das physische Medium selbst langsam war. Doch mit Flash und SSDs hat sich der Engpass vom Gerät zum Protokoll-Stack und Netzwerk verschoben. Auch mit Direct Attached NVMe SSDs können Anwendungen I/O im Zehner-Mikrosekundenbereich verarbeiten. Zum Vergleich: Bei traditionellen SAN-Protokollen wie iSCSI oder FCP kann jede I/O-Anfrage mit mehreren Hundert Mikrosekunden an Software- und Netzwerk-Overhead verbunden sein. Genau diese Lücke überbrückt NVMe-oF.

Technisch betrachtet übermittelt NVMe-oF die NVMe-Befehle mit minimaler Übersetzung über ein Netzwerk-Fabric. Es vermeidet die SCSI-Befehlsemulationsebene, die für einen Großteil des Overhead bei iSCSI oder Fibre Channel verantwortlich ist. Stattdessen unterstützt NVMe-oF direkte, Fabric-übergreifende Übermittlungs- und Verarbeitungswarteschlangen, sodass I/O-Anfragen direkt und mit minimaler Intervention zwischen Anwendung und SSD abgewickelt werden. Daraus resultiert eine Latenz im Bereich von 20 bis 30 Mikrosekunden über ein Fabric, was in etwa der Performance lokaler NVMe-Festplatten entspricht.

Skalierbarkeit ist ebenso wichtig. NVMe wurde für die massive parallele Verarbeitung mit mehreren Tausend Übermittlungs- und Verarbeitungswarteschlangen konzipiert. NVMe-oF überträgt dieses Merkmal auf das gesamte Netzwerk. Bei alten Protokollen wird eine einzelne Befehlswarteschlange zum Engpass. Im Gegensatz dazu können die Anwendungen und Hosts hier eigene Warteschlangen eröffnen, die direkt an die CPU-Kerne übertragen werden. Durch dieses Design kann die Infrastruktur mehrere Millionen IOPS pro Host ohne ineffizientes Kontext-Switching oder Warteschlangensperre abwickeln. Bei modernen Mehrkernservern mit mehreren Dutzend Containern oder VMs ist dies für eine durchgehende vorhersehbare Performance in großem Maßstab unverzichtbar.

Effizienz schließt den Kreis. In traditionellen Stacks führen hohe IOPS zu hoher CPU-Beanspruchung. Der Protokoll-Overhead belegt Rechenkapazität, die den Anwendungen vorbehalten sein sollte. NVMe-oF verringert diese Einbußen dramatisch. Benchmarks zeigen häufig, dass NVMe-oF das Drei- bis Vierfache an IOPS pro CPU-Kern im Vergleich zu iSCSI liefern kann. Damit können Rechenzentren die Infrastruktur ohne Performance-Abstriche konsolidieren. Darum sehen Hyperscaler und Cloud-Provider NVMe-oF nicht nur als Performance-Plus, sondern als TCO-Optimierung.

Auf Anwendungsfälle bezogen spielt dies eine Rolle in Umgebungen, in denen es auf jede Mikrosekunde ankommt:

Datenbanken, die bei hohen Transaktionsraten Antwortzeiten von weniger als einer Millisekunde benötigen
KI/ML-Trainingspipelines, in denen die GPUs inaktiv sind, wenn der Speicher nicht Schritt halten kann
Edge-Workloads, in denen latenzempfindliche Anwendungen (autonome Systeme, 5G, IoT) keine langen Speicherpfade tolerieren
Echtzeit-Auswertungen, bei denen Ströme von Eingangsdaten ohne Engpässe verarbeitet werden müssen

Die Macht von NVMe-oF in der Datenspeicherung

In all diesen Szenarien stellt NVMe-oF sicher, dass der Speicher kein Hemmschuh ist. Mit NVMe-oF können Unternehmen ihre Infrastruktur so gestalten, dass sich das Netzwerk praktisch wie Direct-Attached Flash verhält, allerdings mit der Flexibilität und Skalierbarkeit von Shared Storage.

Die Wahl des richtigen Fabric: RDMA, Fibre Channel oder TCP?

NVMe-oF ist kein einzelnes Protokoll, sondern ein Rahmen, der definiert, wie NVMe-Befehle über eine Vielzahl von Netzwerk-Fabrics transportiert werden können. Jede Übermittlung hat eigene Stärken, Einschränkungen und optimale Szenarien. Architekten, die die Performance maximieren möchten, ohne den Betrieb unnötig zu verkomplizieren, müssen diese Abstriche oder Kompromisse verstehen.

NVMe-Befehle werden nicht im „Rohzustand“ über ein Fabric transportiert. Stattdessen werden sie in leichte Container gepackt, d. h. verkapselt. Eine Kapsel kann entweder nur den Befehl oder, in bestimmten Fällen, den Befehl und die damit zusammenhängenden Daten enthalten. Die Verkapselung ermöglicht die problemlose Übertragung des warteschlangenbasierten NVMe-Modells auf unterschiedliche Transportprotokolle wie Fibre Channel, RDMA oder TCP. Der Overhead ist minimal und die Effizienz der direkten Übermittlungs- und Verarbeitungswarteschlangen von NVMe bleibt erhalten, sodass NVMe-oF ähnliche Latenzwerte wie Direct Attached Drives erzielen kann.

Die Wahl des richtigen Fabrics für NVMe-oF: RDMA, Fibre Channel oder TCP?

RDMA (RoCE und iWARP)

RDMA (Remote Direct Memory Access) ist der Goldstandard für geringe Latenz bei NVMe-oF. Per Konzept umgeht RDMA den Host-CPU und Kern bei Datentransfers und verschiebt Daten direkt vom Arbeitsspeicher eines Hosts in den eines anderen. Das bedeutet, dass ein NVMe-Befehl mit minimaler CPU-Beteiligung übermittelt und ausgeführt werden kann. Dies führt häufig zu einer Latenz von nur 10 bis 20 Mikrosekunden im Fabric.

RoCE (RDMA over Converged Ethernet) ist die am häufigsten genutzte Variante, die allerdings ein verlustfreies Ethernet-Fabric benötigt (das mit Data Center Bridging oder PFC erreicht wird). Das kann sowohl das Netzwerkdesign als auch die Fehlersuche verkomplizieren.
iWARP hingegen läuft über TCP und ist nicht auf ein verlustfreies Fabric angewiesen. iWARP wird im Markt jedoch nicht durchgehend eingesetzt, und die meisten Anbieter priorisieren RoCE bei ihren NVMe-oF-Lösungen.
InfiniBand ist eine weitere Transportmethode, die RDMA nativ implementiert. InfiniBand wird häufig in High-Performance-Computerumgebungen eingesetzt, in denen extrem geringe Latenz und extrem hoher Durchsatz unabdingbar sind.

Optimale Anwendungsfälle: High-Performance-Cluster, KI/ML-Pipelines, Finanzdienstleistungen, Arbeitslasten, bei denen eine möglichst geringe Latenz unverzichtbar ist.

Abstriche:

Erfordert spezialisierte NICs mit RDMA-Support
Konfiguration und Fehlersuche können kompliziert sein (speziell bei RoCE)
In Umgebungen mit mehreren Anbietern ist die Interoperabilität begrenzt.

Fibre Channel (FC-NVMe)

Fibre Channel hat sich bei Enterprise Storage bewährt. Mit FC-NVMe können Unternehmen NVMe-Befehle über vorhandene FC-Fabrics ausführen, ohne die komplette Infrastruktur austauschen zu müssen. Bei Unternehmen, die viel Geld in SANs investiert haben, ist dies die einfachste Art, NVMe-oF einzuführen.

Die Vorteile, die für FC sprechen, sind seine Reife, seine Stabilität und sein Toolset. Speicheradministratoren, die schon jahrelang FC-Umgebungen verwalten, können FC-NVMe mit minimalem Training einsetzen. Die Performance ist stark und die Latenz liegt in der Regel bei 50 bis 100 Mikrosekunden – nicht so gering wie bei RDMA, aber immer noch erheblich besser als SCSI-over-FC.

Optimale Anwendungsfälle: Unternehmen, die ihre vorhandenen FC-SAN-Deployments modernisieren möchten, ohne ihre Netzwerke komplett überholen zu müssen.

Abstriche:

Erfordert FC-HBAs und FC-Switches (kann vorhandene Ethernet-Netzwerke nicht nutzen)
Geringere Anbieterdichte gegenüber Ethernet-basierten Konzepten
Betriebliche Silos: Den Netzwerkteams fehlt möglicherweise das spezifische FC-Fachwissen.

TCP (NVMe/TCP)

Das neueste Konzept, NVMe/TCP, verfolgt einen pragmatischen Ansatz: Es erlaubt die Übermittlung der NVMe-Befehle über Standard-TCP/IP-Netzwerke. Spezialisierte NICs oder verlustfreies Ethernet sind nicht erforderlich. Wenn Sie ein IP-Netzwerk haben, können Sie NVMe/TCP einsetzen.

Während TCP mit mehr Overhead als RDMA verbunden ist, haben moderne CPU- und NIC-Offloading-Funktionen die Performance-Lücke deutlich verkleinert. Die Latenz liegt bei NVMe/TCP in der Regel zwischen 100 und 200 Mikrosekunden; höher als RDMA, aber immer noch erheblich geringer als bei iSCSI oder Legacy-Protokollen. Für die meisten Enterprise-Workloads ist das schnell genug, und das einfache Deployment macht häufig die geringen Abstriche bei der Latenz wett.

Optimale Anwendungsfälle: Unternehmen, die die Vorteile von NVMe-oF wünschen, ohne in spezielle Hardware zu investieren oder ihre Netzwerkarchitektur umzubauen. Ideal für Cloud-Umgebungen, Brownfield-Rechenzentren und Kubernetes-native Plattformen.

Abstriche:

Geringfügig höhere Latenz als RDMA und FC
Ist für den Transport auf die CPU angewiesen, was bei sehr hohen Arbeitslasten die Performance beeinträchtigen kann (allerdings entwickelt sich das DPU- und NIC-Offloading weiter, um dieses Manko zu beheben)
Im Vergleich zu RDMA und FC ist das Ökosystem noch nicht völlig ausgereift.

Das ganze Bild

Bei der Fabric-Entscheidung geht es nicht darum, welches allgemein die beste Lösung ist, sondern welches die beste Lösung für die jeweilige Arbeitslast und Umgebung ist.

Ist eine extrem niedrige Latenz unverzichtbar und Sie besitzen die Kompetenzen, um ein verlustfreies Ethernet-Fabric zu verwalten, wählen Sie RDMA (RoCE).
Wenn Sie bereits ein stabiles FC-SAN haben, ist FC-NVMe am einfachsten umzusetzen.
Spielen Einfachheit und breite Akzeptanz eine größere Rolle als das Herausholen der letzten Mikrosekunde, ist NVMe/TCP für Sie eine zukunftsfähige Wahl.

In der Praxis wählen viele Unternehmen einen hybriden Ansatz: RDMA für ihre High-Performance-Cluster, TCP für Container-nativen Speicher in Kubernetes und FC-NVMe zur Verlängerung der Nutzung ihrer SAN-Investitionen.

NVMe-oF in modernen Architekturen

Das wahre Potenzial von NVMe over Fabrics zeigt sich aber nicht nur in Benchmarks, sondern darin, wie es das Design moderner Infrastrukturen verändert. Durch die Übertragung der geringen Latenz von NVMe auf das gesamte Netzwerk beseitigt NVMe-oF einen der letzten großen Engpässe beim datenzentrierten Computing: die Performance von Shared Storage. Diese Veränderung beeinflusst verschiedene Architekturmodelle gleichzeitig – von eng integrierten Clustern bis hin zu massiv parallelen Supercomputing-Systemen. Im Folgenden beleuchten wir vier Bereiche, in denen NVMe-oF fundamental wird:

Hyperkonvergierte Infrastruktur (HCI)

Hyperkonvergierte Infrastrukturen bündeln Rechenkapazität, Speicher und Netzwerk in einem einzigen System. Die Herausforderung besteht seit jeher darin, dass über mehrere Server verteilter Shared Storage die Konsistenz der Performance beeinträchtigt. Traditionelle Stacks leiden unter Engpässen, die durch Protokoll-Overhead und ineffiziente I/O-Pfade verursacht werden.

Mit NVMe-oF können die Server in einem Cluster ihre lokalen NVMe-Festplatten beinahe ohne zusätzliche Latenz an ihre Peers bereitstellen. Die Übermittlungs- und Verarbeitungswarteschlangen können im gesamten Fabric abgebildet werden, sodass sich Remote-Zugriff beinahe wie lokaler Zugriff anfühlt. In der Praxis verwandelt dies eine Sammlung von Festplatten, die auf verschiedenen Servern verteilt sind, in einen einheitlichen, leistungsstarken Speicherpool.

Das hat zwei wesentliche Vorteile: Arbeitslasten mit strikten Latenzanforderungen können ohne ein separates SAN direkt auf HCI laufen und die Performance kann durch Hinzufügen von Servern linear skaliert werden. In gemischten Umgebungen mit Datenbanken, Auswertungsmaschinen und Virtual Desktops wird dadurch einer der größten Abstriche der Hyperkonvergenz beseitigt.

Software-Defined Storage

Software-Defined Storage (SDS)-Plattformen bündeln Speicher über mehrere Server hinweg zu einem logischen Pool, abstrahieren ihn und verwalten ihn über eine Software. Die Achillesferse ist seit jeher das Netzwerk. Unabhängig davon, wie schnell die Festplatten sind: Die Gesamtleistung wird von der Kommunikation zwischen den Servern bestimmt.

NVMe-oF hilft SDS-Systemen dabei, eine Near-Local-Performance zu erreichen. Durch die Beseitigung des Fabric-Overheads wird eine Lese- oder Schreibanfrage zwischen verschiedenen Servern mit einer Latenz im Zehner-Mikrosekundenbereich anstatt im Hunderter-Mikrosekundenbereich übermittelt. So kann SDS latenzempfindliche Arbeitslasten unterstützen, die bisher an dedizierte Arrays relegiert wurden.

Der Parallelismus des Protokolls unterstützt auch Mehrmandanten- oder Mehranwendungsumgebungen. Pro Mandant oder Arbeitslast können mehrere Tausend Übermittlungs- und Verarbeitungswarteschlangen zugewiesen werden. Dadurch werden Konkurrenz- und „Noisy Neighbour“-Effekte verringert. In der Praxis bedeutet dies eine vorhersehbare Performance, selbst wenn mehrere Dutzend unabhängige Clients sich denselben verteilten Speicherpool teilen.

Parallele File-Systeme

Beim High-Performance Computing und großvolumigen Datenauswertungen ermöglichen parallele File-Systeme mehreren Tausend Clients den gleichzeitigen Zugriff auf denselben Datensatz. In diesen Systemen entstehen Engpässe häufig nicht durch die rohe Mediengeschwindigkeit, sondern durch die Latenz und den Durchsatz des Fabrics zwischen Rechenkapazität und Speicher.

NVMe-oF behebt dieses Problem, indem es den direkten, latenzarmen Zugriff der Rechenserver auf die NVMe-gestützten Speicherziele ermöglicht. Die I/O-Anfragen müssen nicht mehrere Übersetzungsebenen durchlaufen, sondern die Befehle werden nativ über das Fabric übermittelt. Bei der RDMA-Übermittlung sinkt die Latenz selbst bei einer Skalierung auf mehrere Tausend Server in den Zehner-Mikrosekundenbereich. Bei TCP-Übermittlung können Unternehmen parallele Dateisysteme über Ethernet einsetzen und trotzdem Leistungsverbesserungen im Vergleich zu veralteten NFS oder iSCSI erzielen.

Das führt zur effizienteren Nutzung von Rechenclustern. CPUs und GPUs verbringen weniger Zeit mit dem Warten auf Daten und mehr Zeit mit der Verarbeitung der Daten. Für wissenschaftliche Simulationen, das Training großvolumiger KI-Modelle oder die Auswertung von Datensätzen im Petabyte-Bereich verkürzen diese Verbesserungen direkt die Zeit bis zu den Ergebnissen.

Container-nativer Speicher

Container sind von Natur aus flüchtig, doch die Anwendungen, die darauf laufen, sind dies häufig nicht. Zustandsbehaftete Arbeitslasten wie Datenbanken, Nachrichtensysteme und KI-Pipelines benötigen persistenten Speicher, der mit der Flexibilität des Containermodells mithalten kann.

Mit NVMe-oF können Container-native Speicherplattformen persistente Datenträger mit der gleichen niedrigen Latenz wie lokale NVMe-Festplatten nutzen und dabei die Flexibilität der gemeinsamen Infrastruktur wahren. Pods können Blockspeicher dynamisch an- und abkoppeln. Die Antwortzeit beträgt dabei Mikrosekunden statt Millisekunden.

Da moderne Betriebssysteme NVMe-oF automatisch unterstützen, kann es von Containerspeicher-Treibern ohne zusätzliche Emulationsebenen implementiert werden. Das verringert die Komplexität und stellt sicher, dass bei High-Performance Workloads (wie zustandsbehaftete Datenbanken in Kubernetes-Clustern) keine Abstriche zwischen Flexibilität und Geschwindigkeit mehr nötig sind.

Fazit

Es geht bei NVMe over Fabrics nicht in erster Linie um Befehlssätze oder um die letzte Mikrosekunde verkürzte I/O-Pfade. Es geht viel eher darum, wie sich die Infrastruktur weiterentwickeln kann, wenn der Speicher kein Hemmschuh mehr ist. Sobald der Speicher parallel mit der Rechenkapazität und dem Netzwerk skalieren kann, ergeben sich neue Designmuster, die reibungslosere, effizientere und besser auf den Datenabruf der Anwendungen abgestimmte Architekturen ermöglichen.

Der große Vorteil von NVMe-oF ist, dass es im Hintergrund läuft. Die Anwendungen müssen nicht „wissen“, ob ihre Daten lokal oder remote sind. Entwickler müssen keine Kompromisse zwischen Flexibilität und Performance eingehen. Architekten müssen nicht zwischen Effizienz und Skalierung wählen. Mit NVMe-oF kann das Storage-Fabric einfach Schritt halten.

In Zukunft wird NVMe-oF vermutlich eine noch größere Rolle spielen, wenn neue Beschleuniger, smarte Netzwerkgeräte und speichersemantische Fabrics Einzug in die Rechenzentren halten. Doch der Zweck bleibt gleich: Distanzen als Hemmschuh beseitigen, damit Daten so schnell und nahtlos übermittelt werden können, wie es moderne Arbeitslasten erfordern. Für Unternehmen geht es nicht darum, ob NVMe-oF schneller ist. Es geht darum, ob sie bereit sind, Systeme so zu gestalten, dass die Storage Performance kein Engpass mehr ist, und sich dadurch mehr Möglichkeiten eröffnen.

Kontaktieren Sie DataCore, um zu erfahren, was NVMe-oF für unsere Datenspeicherlösungen bedeutet und wie NVMe-oF die Performance, Skalierbarkeit und Effizienz Ihrer Infrastruktur beschleunigen kann.

Speicherengpässe mit NVMe-oF beseitigen

Der Vorteil von NVMe-oF: Geringe Latenz, hohe Skalierbarkeit und hohe Effizienz