AMD neue Instinct MI300 KI-Chips - Kampfansage an Nvidia
Die neuen GPUs von AMD sollen über bessere Speicher- und KI-Inferenzfähigkeiten verfügen als Nvidias H100. Microsoft, Dell, HPE, Lenovo, Supermicro und Oracle unterstützen die MI300-Chips.
Diese Produktankündigung kann Nvidia nicht freuen. Denn die neuen Chips von AMD stellen die bisher größte Herausforderung für Nvidias Dominanz im Bereich der KI-Computer dar. Mit dem Instinct MI300X Grafikprozessor für Rechenzentren bietet AMD seinen OEM-Kunden die gleiche Trainingsleistung für große Sprachmodelle an wie der H100 von Nvidia. Doch die neue AMD-Komponente bietet bei Speicherkapazitäten und anderen KI- Leistungsmetriken eine bessere Performance als der Wettbewerb. "Es ist der leistungsstärkste Beschleuniger der Welt für generative KI", sagte AMD CEO Lisa Su über den MI300X auf einer Firmenveranstaltung diese Woche.
Zum Einsatz wird der Chip in den Servern gleich mehrerer OEMs kommen, darunter Dell HPE, Lenovo und Supermicro. Dell erklärte, dass seine MI300X-Server bereits verfügbar sind. Andere Anbieter werden ihre Designs voraussichtlich in den kommenden Monaten vorstellen.
Der MI300X ist die dritte Generation der Instinct-GPU-Familie für Rechenzentren und soll die kommenden virtuellen Maschineninstanzen von Microsoft Azure und Bare-Metal-Instanzen von Oracle Cloud Infrastructure antreiben. Weitere Cloud-Service-Provider, die MI300X unterstützen wollen, sind Aligned, Akron Energy, Cirrascale, Crusoe und Denvr Dataworks.
Der ebenfalls neu vorgestellte MI300A Chip wird in Servern von HPE, Supermicro, Gigabyte und der Atos-Tochter Eviden zum Einsatz kommen, deren Markteinführung für nächstes Jahr geplant ist.
AMD kündigte außerdem die Veröffentlichung seiner GPU-Programmierplattform ROCm 6 an, die das Unternehmen als "offene" Alternative zur CUDA-Plattform von Nvidia bewirbt. Die neueste Version dieser Plattform bietet erweiterte Optimierungen für große Sprachmodelle, aktualisierte Bibliotheken zur Leistungssteigerung und erweiterte Unterstützung für eine Vielzahl von Frameworks, KI-Modellen und Pipelines für maschinelles Lernen.
Der Chipdesigner bringt seine neuen Instinct-Chips zu einem Zeitpunkt auf den Markt, an dem Nvidia eine extrem große Nachfrage nach seinen GPUs für KI-Workloads verzeichnet, insbesondere für große Sprachmodelle und andere Arten von generativen KI-Modellen. Allerdings gibt es bei den leistungsstärksten Nvidia-GPUs inzwischen Engpässe, daher suchen Unternehmen nach Alternativen, etwa zu den H100-Prozessoren.
Was bringen die Neuen von AMD
Für Prozessor-affine Leser hier nun einige Leistungsdaten, Specs und Vergleiche: Der Instinct MI300X basiert auf der CDNA 3-Architektur, also der dritten Generation der AMD-GPU-Architektur, die speziell für KI- und HPC-Workloads im Rechenzentrum entwickelt worden ist.
Während AMD beim MI300A einen größeren Schwerpunkt auf Arbeitslasten an der Konvergenz von HPC und KI legt, glaubt das Unternehmen, dass der MI300X für das Training und die Inferenz großer Sprachmodelle wie Metas Open-Source-Llama-2-Familie attraktiver sein wird.
Der letztgenannte Chip verfügt über 192 GB HBM3-Speicher mit hoher Bandbreite. Damit bietet er 2,4-mal mehr Leistung als die 80 GB HBM3-Kapazität der H100 SXM-GPU von Nvidia aus dem Jahr 2022 - und liegt auch über der 141 GB HBM3e-Kapazität der H200, die Nvidia kürzlich für das zweite Quartal 2024 angekündigt hatte.
Die Speicherbandbreite des MI300X beträgt 5,3 TB/s, was 60 Prozent über der Kapazität von 3,3 TB/s des H100 und auch über den 4,8 TB/s des angekündigten H200 liegen soll.
In Bezug auf die HPC-Leistung kann der MI300X laut AMD bis zu 163,4 Teraflops für Matrixoperationen mit doppelt präziser Gleitkommaberechnung (auch bekannt als FP64) erreichen. Bei FP64-Vektoroperationen kann der Chip auf 81,7 Teraflops kommen. Im Vergleich zu Nvdias H100 bedeutete das 2,4 Mal so viel Leistung, sagt AMD.
Bei Single Precision-Gleitkommaberechnungen (alias FP32) erreicht der MI300X 163,4 Teraflops, sowohl bei Matrix- wie auch bei Vektoroperationen. Laut AMD liegt die Vektorleistung des Chips ist 2,4-mal höher als die des H100. Auch sei der H100 nicht in der Lage, FP32-Tensoroperationen auszuführen, weshalb kein Vergleich für Matrixoperationen möglich sei.
Was die wichtigsten KI-Leistungskennzahlen angeht, so ist der MI300X laut AMD bei TensorFloat-32 oder TF32 (653,7 Teraflops), Half-Precision Floating Point oder FP16 (1307,4 Teraflops), Brain Floating Point oder BFLOAT16 (1307,4 Teraflops), 8-Bit Floating Point oder FP8 (2614,9 Teraflops) und 8-Bit Integer oder INT8 (2614,9 Teraflops) insgesamt 30 Prozent schneller als der H100.
Bei den Kernels der gängigsten Large-Language Models (LLM) ist der neue AMD-Prozessor nur geringfügig schneller als Nvidias H100. Für den Kernel des 70-Milliarden-Parameter-Modells Lama 2 von Meta ist der MI300x beim mittleren Kernel 20 Prozent und beim großen Kernel 10 Prozent schneller. Bei Flash Attention 2 ist der MI300X im mittleren Kernel 10 Prozent und im großen Kernel 20 Prozent schneller.
"Das bedeutet, dass sich die Leistung auf der Kernel-Ebene direkt in schnelleren Ergebnissen niederschlägt", erläuterte die CEO Lisa Su.
Leistung auf Plattform- und System-Level
Den OEMs will AMD den neuen Prozessor in der Instinct MI300X Plattform zur Verfügung zu stellen. Diese besteht aus MI300X Chips, liefert rund 10,4 Petaflops FP16- oder BF16-Spitzenleistung, 1,5 TB HBM3 und etwa 896 GB/s Infinity Fabric-Bandbreite.
Damit verfügt die MI300X Plattform laut AMD über eine 2,4-mal größere Speicherkapazität, 30 Prozent mehr Rechenleistung und eine ähnliche bidirektionale Bandbreite als die H100 HGX Plattform von Nvidia.
Die MI300X-Plattform unterstützt PCIe Gen 5 mit einer Bandbreite von bis zu 128 GB/s, maximal 400 Gigabit Ethernet und 440 GB/s Single-Node-Ring-Bandbreite, macht also keinen nennenswerten Unterschied zur H100 HGX-Plattform.
Beim Training des 30-Milliarden-Parameter-MPT-Modells bietet die MI300X-Plattform laut AMD den gleichen Durchsatz wie die Plattform des Wettbewerbs.
Deutlich Vorteile gäbe es jedoch der Inferenzleistung großer Sprachmodelle. Für das 176-Milliarden-Parameter-Bloom-Modell bietet der Chip einen 60 Prozent höheren Durchsatz. Für das 70B Llama 2 Modell eine um 40 Prozent niedrigere Chat-Latenzzeit.
Laut Aussage der AMD-Chefin liegt der wesentliche Vorteil der MI300X-Plattform in den verbesserten Speicherkapazitäten und der Bandbreite. Die MI300X-Plattform könne doppelt so viele Modelle ausführen wie die H100 HGX-Plattform und dabei auch die Modellgröße verdoppeln.
"Dies schlägt sich direkt in geringeren Investitionskosten Ausgaben nieder", sagte Su. "Vor allem, wenn man nicht genügend GPUs hat, ist das sehr, sehr hilfreich."