Atari 2600 setzt ChatGPT schachmatt
Bei einem direkten Aufeinandertreffen am virtuellen Schachbrett hat ein knapp 50 Jahre alter Atari-PC 2600 die KI ChatGPT vernichtend geschlagen. Das Experiment zeigt eindrücklich, wo die Grenzen der KI liegen und warum die Wahl des passenden Modells so wichtig ist.
Was passiert, wenn eine hochmoderne KI gegen einen fast 50 Jahre alten Rechner Schach spielt? Dieser spannenden Frage ist der Citrix-Mitarbeiter Robert Jr. Caruso jetzt mit einem Praxisexperiment auf den Grund gegangen. Auf die Idee dazu gebracht, hatte ihn nach eigener Beschreibung sogar ChatGPT selbst, das sich vorab auch gleich als sicherer Sieger wähnte. Und auch für die meisten Menschen ist der zu erwartende Ausgang dieses Aufeinandertreffens allein aufgrund der technischen Voraussetzungen eindeutig: Auf der einen Seite ein 1977 entwickelter Atari 2600, dessen 8-bit-CPU mit schlanken 1,19 MHz taktet und der um die 100 Watt verbraucht, auf der anderen Seite das Large-Language-Model (LLM) der KI ChatGPT, dessen Training und Betrieb in Hochleistungsrechenzentren stattfindet, deren Energieverbrauch es mit manchem Staat aufnehmen kann.
Totalversagen bei ChatGPT
Als virtuelles Schachbrett diente den beiden ungleichen digitalen Konkurrenten das 1979 für den Atari veröffentlichte Schachprogramm "Atari Video Chess", an das ChatGPT mittels eines Emulators angedockt wurde. Um dieses Setup zu testen, ließ Caruso die Maschinen zunächst auf der leichtesten Stufe gegeneinander antreten, bei der von der Schach-Engine höchstens zwei Züge antizipiert werden. Zwar funktionierte dabei technisch alles wie geplant, allerdings zeigte sich schnell, wie falsch die Prognose war. Denn schon bei dieser vermeintlichen Aufwärmübung ließ der Atari der vermeintlich allwissenden KI keine Chance, wie Caruso schreibt: "ChatGPT wurde schon im Anfängerlevel komplett vernichtet." An schwierigere Einstellungen war somit nicht zu denken.
Teilweise musste sich der PC-Methusalem für seine schnellen wie dominanten Siege nicht einmal anstrengen. Denn immer wieder beging ChatGPT haarsträubende Fehler oder sorgte gar für seine eigene Disqualifikation. Obwohl sie bestens mit den Regeln und Figuren vertraut ist und sogar einiges Wissen über moderne Schachprogramme vorweisen kann, beging die KI immer wieder gravierende Anfängerfehler und opferte wertvolle Figuren wie Läufer und Springer, nur um Bauern zu schützen. Noch gravierender war, dass die KI auch immer wieder Figuren und ihre Lauf- und Schlagregeln verwechselte.
KI zeigt sich lernresistent
Caruso versuchte ChatGPT diese Fehler auszutreiben, indem er die KI darauf hinwies und sie selbst bessere Lösungen für die Situationen erstellen ließ. Dabei begründete die KI etwa ihre Verwechslungen mit einer schlechten Unterscheidbarkeit der Figuren im Schachprogramm. Also schaltete Caruso auf die internationale Schachnotation um, mit der jede Figur, Position und Bewegung eindeutig wiedergegeben werden. Sofort tönte ChatGPT mit ungebrochenem Optimismus, dass es den Atari nun deutlich schlagen werde.
Tatsächlich stellte sich jedoch auch diese Kampfansage schnell als haltlose Halluzination heraus. Genau wie zuvor musste sie eine Niederlage nach der anderen einstecken und agierte dabei trotz aller Hilfe weiterhin häufig wie ein Kleinkind, dem jedes Verständnis für die Schachregeln fehlt. Unter anderem wollte die KI bereits geschlagene Figuren einfach wieder zurück aufs Feld holen. "Sie hat sich immer wieder so dumm angestellt, dass sie dafür selbst in einem Grundschul-Schachclub nur herzlich ausgelacht würde", so Caruso. Und genau wie ein Kind habe ChatGPT immer wieder den Start einer neuen Partie gefordert, um diesmal alles richtig machen und den Gegner schlagen zu können.
Ohne Erfolg. ChatGPT stolperte weiter chancenlos vor sich hin und lies keinerlei echtes Regel- oder gar Taktikverständnis erkennen. Besonders große Probleme hatte ChatGPT dabei, sich die Positionen und Bewegungen zu merken. Ein sinnvolles Spielen oder gar Antizipieren der nächsten Züge war damit völlig undenkbar. Nach 90 Minuten ungebrochener Dominanz des Ataris brach Caruso das Experiment deshalb schließlich ab.
Das richtige KI-Modell will klug gewählt sein
Das Experiment zeigt deutlich die von den Anwendern gerne ignorierten Grenzen und Gefahren moderner KI-Modelle auf. Als LLM liegt ChatGPTs große Stärke im Erstellen von Dialogen auf Basis der Wahrscheinlichkeiten von Wortverknüpfungen. Damit ist die KI ein Generalist, der für ein breites Anwendungsspektrum passable oberflächliche Antworten liefern kann. Allwissend ist sie damit jedoch bei Weitem nicht. Auch wenn die Nutzer und die Software fest davon überzeugt sind, kann sie Spezialaufgaben wie das vorliegende Schachexperiment nicht ansatzweise zufriedenstellend meistern. Es will somit wohlüberlegt sein, ob und welche KI-Lösung tatsächlich für einen Anwendungsbereich eingesetzt werden soll. So ist es im konkreten Fall deutlich sinnvoller, ein einfaches, aber spezialisiertes Schachprogramm oder eine KI die eher auf Reasoning- als auf Sprachmodelle setzt, zu nutzen.
Schwache Vorstellung als starkes Argument für den Channel
Trotz dieser Voraussetzungen zeigt sich auch Caruso von der Deutlichkeit des Ergebnisses seines Experiments und dem völligen Versagen von ChatGPT überrascht. "Auch wenn wir hier spezialisierte und allgemeine KI vergleichen, war deren Unfähigkeit, zwischen den Zügen wenigstens einen grundlegenden Überblick über das Spielbrett zu behalten, äußerst enttäuschend", so sein Fazit. Aus seiner Sicht hätte man selbst von einem LLM mehr erwarten können: "Ist das wirklich so etwas anderes, als während eines Gesprächs ständig die wichtigsten Zusammenhänge daraus zu vergessen?"
Damit kann dieses Beispiel auch dem Channel helfen, seinen Kunden eindrücklich vor Augen zu führen, warum es gerade beim Thema KI Expertise und einen Plan braucht, und nicht einfach nur eine Instanz von ChatGPT oder anderen KIs für alle Einsatzzwecke taugt.
CRN-Newsletter beziehen und Archiv nutzen - kostenlos: Jetzt bei der CRN Community anmelden