"Bahnbrechendes" für GenKI: Nvidia präsentiert Blackwell - die GPUs der nächsten Generation
Die Nachfolger von Hopper sollen eine bis zu 30 mal höhere Inferenzleistung ermöglichen und bei massiven KI-Modellen Energie um den Faktor 25 senken. Die Innovationen von Nvidia im Überblick.
Gleich sechs "transformative Technologien für beschleunigtes Computing" sind die Grundlage der neuen GPU-Designs mit Blackwell-Architektur, die Nvidia bei seiner GTC-Konferenz am Montag dieser Woche in San Jose vorstellte. Diese sollen einen "Durchbruch für generative KI und Datenverarbeitung" ermöglichen und noch in diesem Jahr auf den Markt kommen. Einen offiziellen Zeitplan gibt es zwar noch nicht, doch steht bereits fest, dass AWS, Microsoft Azure, Google Cloud, Oracle Infrastructure und Cloud-Service-Anbieter wie Lambda, CoreWeave und IBM Blackwell-basierte Instanzen bereitstellen werden.
Auf der Serverseite werden Cisco, Dell, HPE, Lenovo und Supermicro voraussichtlich schon bald etliche Systeme anbieten, die auf Blackwell basieren; dasselbe gilt für die OEMs ASRock Rack, Asus, Eviden und Gigabyte.
Blackwell ist Nvidias erstes Architektur-Update für Rechenzentrums-GPUs, seit generative KI-Anwendungen wie ChatGPT und Stable Diffusion 2022 online gingen und der Hype um KI-Entwicklung begann, von dem inzwischen auch Channel-Partner profitierten.
Der anhaltende Boom hat sich vor allem für Nvidia ausgezahlt, denn seine Grafikprozessoren galten und gelten als Hauptmotor für das Training und die Ausführung von KI-Modellen. Die Nachfrage nach GPUs wie dem H100 und den zugehörigen Systemen war groß und hat maßgeblich dazu beigetragen, dass sich der Umsatz des Unternehmens im vergangenen Jahr auf 60,9 Mrd. US-Dollar mehr als verdoppelte - und Nvidia damit den Umsatz von Intel übertraf.
Die ersten Blackwell-Designs
Zu den ersten bestätigten Designs auf Grundlage von Blackwell-Architektur gehören die GPUs B100 und B200, die als Nachfolger der Hopper-basierten H100 bzw. H200 für x86-basierte Systeme positioniert sind. Der Grafikprozessor B200 wird also über mehr Speicherkapazität mit hoher Bandbreite verfügen als der B100.
Neu ist auch der GB200 Grace Blackwell Superchip, der in einem einzigen Gehäuse einen B200-Grafikprozessor mit der Arm-basierten 72-Kern-Grace-CPU verbindet, die zuvor schon mit dem H200 und dem H100 gepaart war. Doch während die Grace Hopper Superchips eine einzelne Grace-CPU mit einer Hopper-GPU verbinden, kombiniert der Grace Blackwell Superchip eine einzelne Grace-CPU mit zwei Blackwell-GPUs. Damit liegt die Leistungsskalierung deutlich höher als bei der ersten Generation.
Den Grafikprozessor GB200 sieht Nvidia Blackwell vor allem bei anspruchsvollen KI-Workloads glänzen – besonders bei den massiven und komplexen KI-Modelle der Kategorie "Mixture of Experts", die mehrere Modelle kombinieren, was die Anzahl der Parameter auf über eine Billion ansteigen lässt.
Schnellere Interferenz
In einem flüssigkeitsgekühlten System mit 18 GB200 sind die 36 Blackwell-GPUs laut Nvidia in der Lage, eine bis zu 30-mal schnellere Inferenzleistung für große Sprachmodelle zu liefern als ein luftgekühltes System mit 64 H100-GPUs.
Während Nvidia signifikante Fortschritte bei der Inferenz, Energieeffizienz und Kostensenkung verspricht, steigt für die leistungsstärksten Blackwell-Konfigurationen allerdings auch der Energiebedarf. Das Unternehmen gab an, dass Blackwell von 700 Watt (dem Maximum von Hopper und dem Maximum für den luftgekühlten HGX B100 Formfaktor) bis zu 1.200 Watt konfiguriert werden kann. Damit erfordert der GB200 eine neue, flüssigkeitsgekühlte Rack-Scale-Architektur.
208 Milliarden Transistoren
Die Blackwell-Architektur, die einen Wandel in Nvidias Design für Rechenzentrums-GPUs markiert, kombiniert nach Angaben des Unternehmens "zwei der größtmöglichen Chips" in einem einzigen Gehäuse. Diese sind mit einer 10 TB/s Chip-to-Chip-Verbindung verbunden, die ihnen ermöglicht, als "einzelne, einheitliche GPU ohne die Nachteile des Programmverhaltens von Chiplets" zu funktionieren, so Nvidia. Damit steigt die Transistoranzahl des Grafikprozessors auf 208 Milliarden, eine satte Steigerung von 160 Prozent im Vergleich zum H100.
Möglich gemacht hat dieses Design ein maßgeschneiderter 4NP-Fertigungsprozess des Foundry-Riesen TSMC, den Nvidia ebenfalls als "revolutionäre Blackwell-Technologie" bezeichnet.
Wie ein Nvidia-Sprecher gegenüber CRN erklärte, ist Blackwell definitiv kein Chiplet-Design. Diese Methode zur Verbindung kleinerer Chips in einem Gehäuse setzt AMD seit Jahren ein, unter anderem für die Rechenzentrums-GPU Instinct MI300, die Intel vor kurzem für eine breitere Palette von Produkten übernommen hat, darunter auch seine Max-Serie.
Transformer-Engine der 2. Generation steigert KI-Leistung
Laut Ian Buck, Vice President of Hyperscale and High-Performance Computing bei Nvidia, sind die Blackwell-GPUs in der Lage, KI-Leistungen von bis zu 20 Petaflops zu erbringen, was 20 Billiarden Berechnungen pro Sekunde entspricht. Gemessen wurde das mit einem neuen numerischen Format, das als Vier-Bit-Gleitkomma oder kurz mit FP4 bekannt ist. FP4 weist eine geringere Präzision auf als das FP8-Format des Blackwell-Vorgängers Hopper, mit dem jeder H100-Grafikprozessor vier Petaflops erreicht.
Wie Buck angab, kann Blackwell mit FP4 doppelt so viel Rechenleistung und Bandbreite bereitstellen wie Hopper und verdoppelt auch die Größe des KI-Modells, das auf eine einzelne GPU passt. "Diese feine Granularität zu erreichen, ist an sich schon ein Wunder", sagte Buck in einem Briefing.
Ermöglicht wird dieses "Wunder" durch Blackwells Transformer Engine der zweiten Generation. Wie die erste Generation verfolgt die Transformer-Engine laut Buck "die Genauigkeit jeder Schicht jeder Tensor-Recheneinheit" in der GPU. Während die GPU ein Modell trainiert, überwacht die Engine "ständig die Bereiche jeder Schicht und passt sich an, um innerhalb der Grenzen der numerischen Präzision zu bleiben, um die beste Leistung zu erhalten."
Die zweite Generation der Engine, die Nvidia als eine von Blackwells "sechs revolutionären Technologien" bezeichnet, kann die Überwachung durch "Mikro-Tensor-Skalierung" noch granularer gestalten. Die Transformer-Engine könne so auch die "einzelnen Elemente innerhalb des Tensors" betrachten, berichtete Buck.
Die Open-Source-Softwarebibliothek TensorRT-LLM von Nvidia, die das Unternehmen im vergangenen Jahr auf den Markt gebracht hat, um die Inferenz großer Sprachmodelle in einem H100 zu verdoppeln, und das NeMo Megatron-Framework für das Training solcher Modelle trügen ebenfalls dazu bei, dass Blackwell 20 Petaflops mit einer einzigen GPU erreicht.
Hochgeschwindigkeitsverbindung zwischen 576 GPUs
Ein weiterer technologischer Fortschritt bei Blackwell ist die fünfte Generation des NVLink Chip-to-Chip Interconnects, der die Kommunikation zwischen den GPUs ermöglicht. Diese ermöglicht einen bidirektionalen Durchsatz pro GPU von 1,8 TB/s, also zweimal so viel wie es Hopper mit NVLink der vierten Generation schaffte.
Die Anzahl der Grafikprozessoren, die bei diesen Geschwindigkeiten miteinander kommunizieren können, liegt ebenfalls deutlich höher. Laut Nvidia-Angaben wird "nahtlose Hochgeschwindigkeitskommunikation" zwischen maximal 576 Grafikprozessoren möglich. Bei Hopper waren es noch maximal 256 GPUs.
Buck erklärte, dass sich so die zunehmenden Engpässe in großen GPU-Clusters lösen lassen, die massive KI-Modelle ausführen, wie etwa ein Mixture-of-Experts-Modell mit 1,8 Billionen Parametern, das mehrere Modelle enthält, die zusammenarbeiten, um komplexe Funktionen auszuführen und bessere Antworten zu liefern.
"Wenn Sie ein Modell wie GPT-4 ausführen, das mit 1,8 Billionen Parametern ein Mixture-of-Experts-Modell ist, verbringen Sie bis zu 60 Prozent Ihrer Zeit mit Datenkommunikation und nur 40 Prozent der Zeit mit Berechnungen", sagte Buck über ein Szenario mit Hopper-basierten GPUs.
RAS-Engine und vertrauliches Computing
Zu den weiteren technischen Verbesserungen bei Blackwell gehören:
-Eine dedizierte RAS-Engine für Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit. Diese Art von Funktionen ist traditionell in Server-CPUs wie den Xeon-Chips von Intel zu finden. Nvidias Version von RAS umfasst auch KI-basierte präventive Wartungsfunktionen auf Chipebene, um die Ausfallzeiten bei massiven Implementierungen zu reduzieren.
-Erweiterte Funktionen für vertrauliches Computing, die "KI-Modelle und Kundendaten ohne Leistungseinbußen schützen" sollen. Diese Funktionen umfassen unter anderem die Unterstützung "neuer nativer Schnittstellenverschlüsselungsprotokolle".
-Eine dedizierte Dekomprimierungs-Engine, die Datenbankabfragen für Datenanalysen und Data-Science-Anwendungen beschleunigt, die Nvidia als wachsende Einsatzbereiche für GPUs bezeichnete.
-Neue Varianten von DGX-Systemen mit Blackwell-GPUs sind der DGX B200, ein luftgekühltes Design, das B200-GPUs mit x86-CPUs kombiniert. Dieses System ist in einem DGX-SuperPod-Cluster erhältlich. Acht dieser Systeme bilden einen DGX SuperPod-Cluster, der insgesamt 288 Grace-CPUs, 576 B200-GPUs und 240 TB schnellen Speicher umfasst. Damit ist der DGX SuperPod in der Lage, 11,5 Exaflops Berechnungen pro Sekunde zu liefern. Der GB200-basierte SuperPod basiert auf einer neuen Version der Rack-Scale-Architektur, die Nvidia letztes Jahr zusammen mit AWS eingeführt hat, um große generative KI-Anwendungen zu betreiben.
-Das GB200 NVL72 genannte System ist laut Nvidia ein flüssigkeitsgekühltes Multi-Node-Rack-System für die rechenintensivsten Workloads und enthält 36 GB200 Grace Blackwell Superchips sowie die BlueField-3 Data Processing Units (DPUs) des Unternehmens. Diese DPUs sollen "Cloud-Netzwerkbeschleunigung, Composable Storage, Zero-Trust-Sicherheit und GPU-Compute-Elastizität in Hyperscale-KI-Clouds ermöglichen", so das Unternehmen.
Die GB200 NVL72-Systeme werden die Basis der Infrastruktur für die Blackwell-basierte Instanzen bilden, die Microsoft Azure, AWS, Google Cloud und Oracle Cloud Infrastructure bereitstellen werden, wobei die drei letztgenannten Unternehmen auch den DGX-Cloud-Service von Nvidia in ihren Systemen anbieten werden.
Nvidia plant, OEMs und andere Partner in die Lage zu versetzen, ihre eigenen Blackwell-basierten Systeme mit dem HGX-Serverboard zu bauen, das acht B100- oder B200-GPUs verbindet. Das Unternehmen hat jedoch noch keine Pläne angekündigt, Blackwell-GPUs in PCIe-Karten für Standard-Server anzubieten.
Quantum-X800 InfiniBand- und Spectrum-X800 Ethernet-Plattformen
Um Verbindungen mit hoher Bandbreite zwischen den Systemen zu ermöglichen, hat Nvidia zwei neue Hochgeschwindigkeits-Netzwerkplattformen angekündigt, die Geschwindigkeiten von bis zu 800 GB/s liefern: die Quantum-X800 InfiniBand-Plattform und die Spectrum-X800-Plattform.
Die Quantum-X800-Plattform, die den Quantum 3400-Switch und die ConnectX-8 SuperNIC umfasst, bietet laut Nvidia eine fünfmal höhere Bandbreitenkapazität und eine neunfache Steigerung der netzwerkinternen Rechenleistung, was 14,4 Teraflops entspricht.
Der Spectrum-X800 hingegen "optimiert die Netzwerkleistung und ermöglicht eine schnellere Verarbeitung, Analyse und Ausführung von KI-Workloads", so Nvidia. Dies führe zu einer beschleunigten Entwicklung, Bereitstellung und Markteinführung von KI-Lösungen.