KI-Chip Maia 200: Microsoft greift AWS, Google und Nvidia an

Microsoft behauptet, sein neuer KI-Beschleunigerchip Maia 200 sei "der leistungsstärkste First-Party-Chip aller Hyperscaler". Er ist Teil der Strategie des Unternehmens, sich aus der Abhängigkeit von Drittanbietern wie Intel, AMD und Nvidia zu befreien.

Der Maia 200 soll Microsoft helfen, sich von Nvidia, AMD und Intel freizuschwimmen und zugleich die Mitbewerber AWS und Google bei der Inferenz in Schach zu halten (Foto: Microsoft)

Mit markigen Worten schickt Microsoft seinen neuen KI-Beschleunigerchip Maia 200 ins Rennen. Nach dem Dafürhalten des Konzerns soll die zweite Generation nicht weniger als der "leistungsstärkste First-Party-Chip aller Hyperscaler" sein. Ein großes Versprechen angesichts der Leistungsfähigkeit der Chips der Mitbewerber, insbesondere von Google. Als konkretes Beispiel führt Microsoft etwa an, dass der auf Inferenz ausgerichtete Maia 200 die Konkurrenz von Google und AWS bei numerischen Formaten mit geringer Genauigkeit übertreffe, wie sie für eine wachsende Zahl von KI-Inferenz-Workloads wichtig sind.

Inwieweit der von TSMC im 3-nm-Verfahren gefertigte neue Maia-Chip diesem Anspruch auch gerecht werden kann, wird erst die Praxis zeigen. In jedem Fall unterstreicht der große Auftritt, wie wichtig der KI-Prozessor für Microsoft und seine Ambitionen ist, unabhängiger von externen Chipherstellern wie Intel, AMD und Nvidia zu werden. Letzteres Unternehmen dominiert den Markt für KI-Infrastruktur mit einer zunehmend vertikalen Palette an Software- und Hardwarelösungen, die Kunden und Partnern weniger Anpassungsmöglichkeiten für seine schnellsten GPUs lassen.

Erste Maia 200 bereits in US-Cloud-Regionen integriert

Microsoft zufolge sollen erste Maia 200-Systeme bereits in Datacentern seiner Region US Central in der Nähe von Des Moines, Iowa, eingesetzt werden. Als nächstes soll die die Region US West 3, deren Rechenzentren in der Nähe von Phoenix, Arizona, stehen, mit den neuen KI-Chips aufgerüstet werden, bevor sie in weiteren Rechenzentren und Regionen implementiert werden. Dort werden die Maias laut Microsoft vor allem für Microsoft Copilot- und Microsoft Foundry-Workloads eingesetzt. Außerdem werden sie für die Ausführung fortschrittlicher KI-Modelle verwendet, darunter die neuesten GPT-5.2-Modelle von OpenAI, sowie für eigene Modelle, die vom Superintelligence-Team von Microsoft unter der Leitung von Mustafa Suleyman, CEO von Microsoft AI, entwickelt werden.

Scott Guthrie, Executive Vice President der Cloud- und KI-Gruppe von Microsoft, erklärte in einem Blogbeitrag, dass das Unternehmen mit dem Maia 200 "eine höhere Auslastung, eine schnellere Produktionszeit und nachhaltige Verbesserungen bei der Leistung pro Dollar und pro Watt im Cloud-Maßstab" erzielen konnte. Dies sei den Bemühungen der Halbleiter-Entwicklungsprogramme von Microsoft zu verdanken, "noch vor der endgültigen Verfügbarkeit des Chips so viel wie möglich vom End-to-End-System zu validieren".

Direktvergleich von Microsoft Maia 200 mit Google TPU v7 und AWS Trainium3

Hinsichtlich der Leistung gibt Microsoft an, dass der Maia 200 mit seinen nativen FP8/FP4 Tensor-Kernen fast 10.200 Teraflops bei 4-Bit-Gleitkommaoperationen (FP4) erreichen kann. Damit ist der Chip hier etwa viermal leistungsfähiger als der aktuelle Trainium3-Chip von Amazon Web Services. Die vom Hersteller genannte 8-Bit-Gleitkomma-Leistung (FP8) von etwas mehr als 5.000 Teraflops ist nicht nur mehr als doppelt so schnell wie Trainium3, sondern übertrifft sogar die siebte Generation der TPU von Google um rund 9 Prozent.

Um den Datenstrom zu den Rechenwerken sicherzustellen, setzt Microsoft beim Speicher auf breitbandigen HBM3e und 272 MB integrierten SRAM. Die sechs HBM3e-Stacks mit je 12 Dies (12-High) bieten 216 GB Speicher pro Chip mit einer Speicherbandbreite von 7 TBps. Im direkten Vergleich sind das 50 Prozent mehr Speicher als beim AWS Trainium3 (144 GB / 4,9 TBps) und 12,5 Prozent mehr als Googles TPU v7 (192 GB), die allerdings dank seiner acht Stacks mit 7,4 TBps einen höheren Durchsatz erreicht. Microsofts Maia 200 unterstützt außerdem eine Scale-up-Bandbreite von 2,8 TBps, gegenüber maximal 2,56 TBps bei Trainium 3 und 1,2 TBps bei TPU v7.

Fragezeichen bei Details zur Integration und Server-Leistung

Was Microsoft in seinem Blogbeitrag vom Montag allerdings nicht angesprochen hat, sind Punkte wie die Gesamtleistung und andere Spezifikationen eines Server-Racks, in dem die Maia 200-Chips untergebracht sind. Erst diese Details können jedoch konkreten Aufschluss darüber geben, wie viel Leistung ein Rack voller KI-Chips liefern kann und wie viel Strom es dafür benötigt. AWS gibt hier beispielsweise an, dass seine Trn3 UltraServer bis zu 144 Trainium3-Chips aufnehmen können, um eine FP8-Leistung von bis zu 362 Petaflops zu erzielen. Google führt indes an, dass sein TPU v7-Pod über 9.216 TPUs der siebten Generation verfügt, um 42,5 Exaflops bei FP8 zu liefern. Ein Microsoft-Sprecher reagierte bislang nicht auf eine Anfrage von CRN nach vergleichbaren Details und Werten.

Auch hinsichtlich der wichtigen Faktoren Energieverbrauch oder Kosten liefert Microsoft keine Wettbewerbsvergleiche, erklärt jedoch, dass der Maia 200 eine um 30 Prozent höhere Leistung pro Dollar bietet als die erste Generation Maia 100. Diese Verbesserung wird mit einer thermischen Verlustleistung von 750 Watt erreicht, die nur 50 Watt über der maximalen Leistungsaufnahme des Vorgängers liegt. (Offiziell ist der Maia 100 für 500 Watt ausgelegt.) Selbstredend kommt bei Maia 200 Direktwasserkühlung zum Einsatz.

Letztendlich wird die reale Wettbewerbsfähigkeit von Maia 200 gegenüber Trainium3 von AWS und Googles TPU v7 jedoch von zwei Faktoren bestimmt werden: den Kosten, die Kunden für die Ausführung ihrer Workloads entstehen, und der Effektivität, mit der sie die Software-Stacks der einzelnen Cloud-Dienstleister nutzen können.

Dieser Artikel entstand mit Material unserer Schwesterpublikation crn.com.

CRN-Newsletter beziehen und Archiv nutzen - kostenlos: Jetzt bei der CRN Community anmelden