Totalversagen der großen KI-Modelle bei mehrstufigen Prompt-Angriffen
Trotz aller Verbesserungsversuche der Entwickler wie OpenAI, Google, Microsoft und Meta zeigen ihre offen nutzbaren LLM-Modelle weiterhin eklatante Schwächen gegenüber mehrstufigen Eingabe-Angriffen. Das bringt auch Unternehmen in Gefahr, die eigene Chatbots und Agenten darauf aufbauen und nutzen.
Im KI-Bereich haben sich frei verfügbare Open-Source und insbesondere Open-Weight-Modelle, bei denen einzelne Bausteine wie der Quellcode, die Trainingsdaten oder die Trainingsverfahren geheim bleiben, inzwischen als Standard etabliert. Weil sie jeder herunterladen, ändern, damit experimentieren und sie auch einsetzen kann, tragen sie massiv zur rasanten Innovations- und Verbreitungsgeschwindigkeit auf dem Feld der Künstlichen Intelligenz bei. Zugleich macht sie die Offenheit aber auch anfälliger, da sie Angreifern die Gelegenheit gibt, effizient nach Schwachstellen und Wegen diese auszunutzen zu suchen.
Dies trifft insbesondere auf mehrstufige Angriffe zu, bei denen Cyberkriminelle mit speziell konstruierten Konversationen aus mehreren aufeinanderfolgenden Schritten gezielt die integrierten Sicherheitsmechanismen umgehen. Meist reichen für solche Multi-Turn-Szenarien schon zwischen fünf und zehn Prompts aus. Damit können die Angreifer dann beispielsweise sensible Daten extrahieren, gezielt Fehlinformationen verbreiten oder Ergebnisse anderweitig manipulieren, während das Risiko entdeckt zu werden minimal ist.
Klassenbeste mit 6,35 Prozent Durchlassquote für Attacken
Teils ist es auf diesem Wege sogar schon gelungen, den Modellen Informationen über weitere Schwachstellen und Angriffsmöglichkeiten gegen sie selbst abzuringen. Ist das schon bei den öffentlichen KI-Anwendungen wie ChatGPT und Gemini ein erhebliches Problem, kann es für Unternehmen mit selbstentwickelten Lösungen und Agenten auf Basis der Open-Weight-Modelle schnell zur kritischen Gefahr werden.
Wie groß und real diese Gefahr trotz aller Anstrengungen der Modell-Entwickler noch immer ist, zeigt jetzt deutlich eine aktuelle Untersuchung von Cisco AI Defense auf. Dessen Experten nahmen sich acht der größten Sprachmodelle (LLMs) von OpenAI, Google, Microsoft, Meta und Co. zur Brust und untersuchten sie auf ihre Widerstandsfähigkeit gegenüber einfachen und mehrstufigen Angriffen. Dabei bestätigte sich über alle Modelle hinweg, dass sie sowohl noch immer erhebliche Schwächen gegenüber Single-Turn-Angriffen mit einzelnen Jailbreak-Prompts aufweisen, als auch, dass die Gefahr bei mehrstufigen Angriffen noch deutlich höher ist.
Die niedrigste Attack Success Rate (ASR) im Single-Turn-Bereich wiesen bei den Tests OpenAIs GPT-OSS-20b und das verwandte Microsoft-Modell Phi-4 auf. Dennoch waren auch bei ihnen jeweils 6,35 Prozent der Angriffe erfolgreich. Kamen mehrere Prompts zum Einsatz, stieg der Wert bei OpenAI auf 39,66 Prozent und bei Microsoft war dann sogar mehr als jeder zweite (54,20 Prozent) Angriff erfolgreich. Selbst im besten Fall (Google Gemma-3-1B-IT) war die Erfolgsrate beim Umgehen der Sicherheitsbarrieren über Multi-Turn-Attacken mit 25,86 Prozent fast doppelt so hoch wie mit einem Einzel-Prompt (15,33 Prozent).
Über 90 Prozent Erfolgsquote mehrstufigen Angriffs-Prompts
Den größten Unterschied zwischen den beiden Angriffsarten stellten die Cisco-Experten bei Alibaba Qwen3-32B fest, das eine Single-Turn-ASR von 12,7 Prozent aufweist, während das Risiko bei Multi-Turn-Angriffen mit 86,18 Prozent fast zehnmal so groß ist. Die größten Schwächen gegenüber beiden Angriffsarten wies indes Mistral Large-2 mit 21,97 Prozent Single-Turn-ASR und 92,78 Prozent Multi-Turn-ASR auf. Hier ist also quasi fast jeder gezielte Angriff auch erfolgreich.
Alle Open-Weight-Modelle mit deutlichen Schwachstellen bei Multi-Turn-Angriffen
Insgesamt muss also festgehalten werden, dass sich alle Open-Weight-Modelle mehr oder minder leicht manipulieren lassen. Zumindest mit Multi-Turn-Angriffen haben kriminelle und andere Übeltäter gute Chancen, Antworten zu manipulieren, Daten abzugreifen und andere Kompromittierungen umzusetzen. Das liegt vor allem daran, dass die Modelle kontextbezogene Abwehrmaßnahmen nicht über längere Dialoge hinweg aufrechterhalten können, sodass Angreifer ihre Prompts ergänzen und verfeinern können, um den Schutz auszuhebeln oder zu umgehen.
"Diese Ergebnisse zeigen, dass Multi-Turn-Angriffe nach wie vor ein großes, ungelöstes Problem im Bereich der KI-Sicherheit darstellen", resümieren die Cisco-Autoren Amy Chang und Nicholas Conley und warnen: "Das kann zu Datendiebstahl, verzerrten Ergebnissen, Verbreitung schädlicher Inhalte in öffentlich zugänglichen Anwendungen oder Störungen in integrierten Systemen wie Chatbots führen."
Offenbar gibt es zudem einige Wege und Regeln für mehrstufige Angriffe, die trotz aller Unterschiede der einzelnen Modelle und ihrer Schutzmechanismen allgemein besonderes erfolgsversprechend sind. Bei ihren Versuchen stellten die Spezialisten von Cisco AI Defense fest, dass 15 der mehr als 100 von ihnen getesteten Unterbedrohungen quasi über das gesamte Testfeld hinweg "alarmierend hohe Erfolgsraten" erzielten.
Auswege aus der KI-Sicherheitsfalle
Trotz dieser notorischen Schwachstellen hilft es jedoch nicht, einzelne KI-Modelle oder gar die Technologie selbst zu verteufeln und auf ihren Einsatz zu verzichten. Vielmehr gilt es, sich der Probleme und Risiken bewusst zu sein und einerseits die Modelle sowie andererseits ihre Nutzung daran anzupassen. Ein erster wichtiger Schritt dazu wäre, dass die Hersteller in ihren Dokumentationen transparent auf die Schwachstellen hinweisen, um die notwendige Sensibilität bei IT-Verantwortlichen und Nutzern zu erzeugen. Das würde gerade im Unternehmenskontext helfen, passende Modelle wählen, gezielt auf ihre Risiken eingehen und sie entsprechend anpassen und zusätzlich absichern zu können. Dazu können beispielsweise spezielle KI-Security-Lösungen und -Strategien wie Adversarial Training zur Stärkung der Modellrobustheit, gezielte Abwehrmaßnahmen gegen Multi-Turn-Exploits wie kontextsensitive Schutzvorrichtungen, Echtzeitüberwachung auf anomale Interaktionen und regelmäßige Red-Team-Übungen implementiert werden.
Für eine bessere Absicherung der Modelle selbst fordern die Cisco-Experten die Entwickler außerdem dazu auf mehr für die Entwicklung und Bereitstellung geeigneter Schutzmaßnahmen zu unternehmen. Dazu könnten ihnen beispielsweise gerade die 15 genannten besonders gefährlichen Exploit-Varianten aus dem Cisco-Test wichtige Ansatzpunkte liefern.
CRN-Newsletter beziehen und Archiv nutzen - kostenlos: Jetzt bei der CRN Community anmelden