Nvidia kauft Slurm-Entwickler SchedMD

Das in HPC- und KI-Rechenzentren genutzte Workload-Managementsystem Slurm soll Nvidia und seinen Partnern und Kunden helfen, ihre Datacenter zu optimieren. Dabei verspricht Nvidia, es weiterhin als Open Source zu halten und anzubieten. Dennoch sehen manche Partner die Übernahme von SchedMD mit einigen Bedenken.

(Foto: Nvidia)

Anfang der Woche gab Nvidia bekannt, dass es den Entwickler von Slurm übernommen hat. Das Open-Source-Workload-Managementsystem hat seine Wurzeln im traditionellen Hochleistungsrechnen, wird aber zunehmend für große KI-Cluster eingesetzt. Während ein führender Vertriebspartner von Nvidia das angesichts der zunehmend komplexen Anforderungen an den Betrieb von KI-Rechenzentren für sinnvoll erachtet, fühlt sich ein anderer an eine Software-Übernahme aus dem Jahr 2022 und ihre unangenehmen Folgen für Partner und Kunden erinnert. Die finanziellen Details der Übernahmevereinbarung wurden nicht bekanntgegeben.

Nvidia selbst erklärte zur Übernahme, dass Slurm eine wichtige Rolle dabei spielt, Betreibern von HPC- und KI-Clustern zu helfen, die Auslastung von Rechenressourcen für komplexe Workloads zu optimieren. Zum Beleg verwies der Konzern auf den Einsatz von Slurm in mehr als der Hälfte der Top-10- und Top-100-Systeme aus der Top500-Liste der schnellsten Supercomputer der Welt. Aus Sicht des KI-Infrastrukturgiganten ist Slurm damit als "kritische Infrastruktur" für die Entwicklung generativer KI einzuordnen, die "von Entwicklern von Basismodellen und KI-Entwicklern zur Verwaltung der Anforderungen an das Modelltraining und die Inferenz genutzt wird".

Klares Bekenntnis zu Open-Source-Modell

Möglichen Sorgen aus der Open-Source-Community trat Nvidia umgehend entgegen und betonte, mit der Übernahme von SchedMD "das Open-Source-Software-Ökosystem stärken" zu wollen. Das wurde mit dem Versprechen untermauert, "Slurm als herstellerneutrale Open-Source-Software weiterzuentwickeln und zu vertreiben, damit es für die breitere HPC- und KI-Community in verschiedenen Hardware- und Softwareumgebungen verfügbar ist und von dieser unterstützt wird".

Ferner erklärte das kalifornische Unternehmen, es werde auch den Zugang von SchedMD zu neuen Systemen verbessern, "damit Nutzer der beschleunigten Computing-Plattform von Nvidia ihre Workloads über ihre gesamte Infrastruktur hinweg optimieren können". In Kombination mit der fortgesetzten Unterstützung eines "vielfältigen Hardware- und Software-Ökosystems" werde dies Kunden ermöglichen, "heterogene Cluster mit den neuesten Slurm-Innovationen zu betreiben", so Nvidia.

Nvidia-Partner sieht Slurm-Übernahme als "großartigen Schritt"

Andy Lin, CTO bei Mark III Systems, einem in Houston ansässigen Nvidia-Systemintegrationspartner, bezeichnete die Übernahme von SchedMD als "großartigen Schritt", der "direkt im Einklang" mit der "Open-Source-zentrierten" Software-Strategie von Nvidia für Bereiche wie Bibliotheken, Frameworks und Tools stehe.

"Slurm ist wirklich der Standard-Open-Source-Workload-Manager und Scheduler für die Branche. Insbesondere für Leute, die aus dem Bereich High-Performance-Computing kommen und sich nicht nur auf HPC-ähnliche, groß angelegte Aufgaben konzentrieren, sondern auch auf das Training großer Basismodelle. Das macht es unglaublich gut", sagte er CRN in einem Interview.

Da Slurm als Alternative zur Kubernetes-basierten Infrastrukturmanagementplattform Run:ai-KI dient, die Nvidia im letzten Jahr erworben hat, konstatierte Lin, dass der KI-Infrastrukturgigant nun über zwei "dominante" Workload-Management-Lösungen für Kunden verfügt, die KI-Rechenzentren für "Dutzende, Hunderte oder sogar Tausende von Nutzern" aufbauen. Dennoch sei er nicht besorgt darüber, dass Nvidia als marktbeherrschende Anbieter im Bereich der KI-Infrastruktur nun auch zwei solche Plattformen unter seinem Dach vereint. "Es soll weiterhin einen offenen Ansatz geben. Man wird also weiterhin die gleichen Open-Source-Modelle trainieren und nutzen können. Nvidia ist wahrscheinlich einer der größten, wenn nicht sogar der größte Open-Source-Beitragende in diesem Bereich, sodass man aus Sicht der Nutzergemeinschaft weiterhin von den Vorteilen profitieren wird", ist Lin, dessen Unternehmen bereits mehrere Nvidia Partner Network Awards gewonnen hat, überzeugt.

Aus einer anderen Perspektive betrachtet, könnte die Übernahme Lin zufolge als "Anerkennung der großen Herausforderung, die es bedeutet eine konsolidierte KI-Fabrik zu betreiben" angesehen werden – ein Begriff, den Nvidia verwendet, um ein zentralisiertes KI-Rechenzentrum zu beschreiben, das eine breite Nutzergruppe bedient. "Aus Marketing-Sicht scheint dies zwar einfach zu sein, aber tatsächlich ist es sehr schwierig, dies in großem Maßstab über einen langen Zeitraum hinweg zu implementieren und zu betreiben", sagte er. "Und ich denke, dies ist wahrscheinlich eine Anerkennung dafür, dass mehr Menschen mit diesen Fähigkeiten gewonnen werden müssen, damit mehr dieser Unternehmen erfolgreich sein können."

Daher geht der Geschäftsführer davon aus, dass Nvidia die Unternehmenssupport-Fähigkeiten von SchedMD nutzen wird, um Kunden ein ganzheitlicheres Angebot für die Einrichtung von KI-Rechenzentren zu bieten. "Nvidia wird dessen Kompetenzen im Unternehmenssupport nutzen können, um sich besser an die Art und Weise anzupassen, wie man KI-Fabriken aufbaut. Insbesondere für diejenigen, die Slurm anstelle von etwas wie Run:ai verwenden möchten", ist Lin überzeugt.

Schlechte Erinnerungen an frühere Übernahme

Auch Dominic Daninger, Vice President of Engineering bei Nor-Tech, einem auf HPC spezialisierten Nvidia-Systemintegrationspartner, erscheint die Grundüberlegung, dass Nvidia Slurm und den Enterprise-Support von SchedMD nutzt, um KI-Fabriken zu fördern, sinnvoll. Im Gegensatz zu Lin äußerte Daninger jedoch Bedenken darüber, wie sich die Übernahme durch Nvidia auf die Nutzung von Slurm bei seinen HPC-Kunden auswirken könnte. Der Manager begründet diese Sorge mit seinen Erfahrungen mit der Übernahme des Cluster-Management-Softwareanbieters Bright Computing durch Nvidia im Jahr 2022. Nach der Übernahme von Bright Computing, so Daninger, sei die Bright Cluster Manager-Software des Anbieters aufgrund steigender Lizenz- und Supportkosten "sehr teuer" geworden. "Außerdem haben wir nicht mehr das gleiche Maß an Support erhalten, was dazu geführt hat, dass wir die Nutzung von Bright größtenteils eingestellt haben", führte er weiter aus.

Nach Daningers Beobachtung sind die Kosten gestiegen, als Nvidia das Produkt 2023 in die Base Command Manager-Software integrierte, was dazu führte, dass das Unternehmen die Art und Weise, wie es Lizenzen berechnet, auf eine Pro-GPU-Basis umstellte und sich von der traditionellen Pro-Knoten-Preisgestaltung von Bright entfernte. Ende letzten Jahres machte Nvidia den Base Command Manager dann nur noch über die Nvidia AI Enterprise-Software-Suite verfügbar, die 4.500 US-Dollar pro GPU für ein Jahresabonnement kostet und Unternehmenssupport beinhaltet, wie der Nvidia-Partner Boston Limited damals in einer Mitteilung informiert habe. Im Gegensatz dazu kosteten die Lizenzen pro Knoten von Bright Cluster Manager laut Daninger vor der Übernahme in der Regel mehrere hundert Dollar pro Jahr.

"Die Ausrichtung änderte sich zu dem, was Nvidia davon brauchte. Das können sie tun, wenn sie es besitzen. Und ich würde davon ausgehen, dass wir hier bei Slurm ähnliche Entwicklungen sehen werden", sagte Daninger. Weiter erklärte der Geschäftsführer, er habe nicht gewusst, dass Nvidia den Base Command Manager im Mai kostenlos über eine Lizenz zur Verfügung gestellt habe, die bis zu acht GPUs pro System unterstützt und keinen Support beinhaltet. Jetzt sei es dafür allerdings bereits zu spät, da Nor-Tech für seine Kunden weitgehend auf andere Cluster-Management-Lösungen, darunter ClusterVision, umgestiegen sei.

Nvidia lehnte es ab, sich zu Daningers Bedenken zu äußern, betonte jedoch in seiner Ankündigung vom Montag, dass es "weiterhin Open-Source-Software-Support, Schulungen und Entwicklungsleistungen für Slurm für die Hunderten Kunden von SchedMD anbieten wird".

Dieser Artikel erschien zuerst bei unserer Schwesterpublikation crn.com

CRN-Newsletter beziehen und Archiv nutzen - kostenlos: Jetzt bei der CRN Community anmelden