Startseite / Blog / Sicherheits-Leitfaden

Sicherheits-Leitfaden

Prompt Injection hat jetzt eine Zahl: 31,5 % Hijack

RRogue AI·2026-06-07·10 Min. Lesezeit

Ein dunkles Kontrollraum-Messgerät, das eine KI-Agenten-Hijack-Rate von 31,5 Prozent gegen null fallen lässt, sobald ein Schutzschalter umgelegt wird

Jahrelang bekam die Frage „Wie oft funktioniert Prompt Injection eigentlich?“ dieselbe Nicht-Antwort: Kommt darauf an. Am 28. Mai 2026 hat Anthropic eine Zahl darauf gesetzt. Die System Card zu Claude Opus 4.8 berichtet, dass ein browser-nutzender KI-Agent in 31,5 % der Fälle durch eine eingeschleuste Anweisung gekapert wurde, ohne Schutzmaßnahmen, und in 0,5 % der Fälle, sobald die Schutzmaßnahmen aktiv waren. Prompt Injection hörte auf, ein Bauchgefühl zu sein, und wurde zu einer Kennzahl, an der man einen Anbieter messen kann.

Das Fehlen einer Zahl ist der Ort, an dem sich Risiko versteckt. Man kann „kommt darauf an“ nicht in ein Risikoregister schreiben, und man kann nicht steuern, was man sich weigert zu messen. Eine Angriffserfolgsrate von 31,5 % liest sich unangenehm und ist weit nützlicher als eine Seite voller Beruhigung. Im Folgenden steht, was die Zahl misst, warum die 0,5 % wichtiger sind und wie Sie die Zahl Ihres eigenen Agenten senken.

Was die 31,5 % tatsächlich messen

Die 31,5 % sind eine Angriffserfolgsrate (ASR): der Anteil der gegnerischen Versuche, die den Agenten erfolgreich gekapert haben. Anthropic maß sie an Claude Opus 4.8 in einer Browser-Nutzungs-Umgebung, mit erweitertem Nachdenken (Extended Thinking) und ohne angewandte Schutzmaßnahmen, gegen einen zurückgehaltenen Satz von Injection-Angriffen. Es ist die Rate, mit der eine in einer Webseite versteckte bösartige Anweisung den Agenten zu einer Handlung brachte, die er hätte verweigern müssen.

Browser-Nutzung ist aus gutem Grund nahe am schlimmsten Fall. Der Agent liest vom Angreifer kontrollierte Inhalte, eine Webseite, eine E-Mail, ein Dokument, und dieser Inhalt sitzt im selben Kontextfenster wie seine echten Anweisungen. Wenn die Grenze zwischen „zu lesenden Daten“ und „zu befolgenden Befehlen“ dünn ist, kann ein in einer Seite vergrabener Absatz die gesamte Aufgabe umlenken. Die Konfiguration verändert die Exposition stark: Anthropic berichtet eine deutlich niedrigere Rate in einer Coding-Werkzeug-Umgebung, und die Karte ist eindeutig, dass die Zahl sich mit dem Harness, den Schutzmaßnahmen und dem Bedrohungsmodell bewegt.

Die wichtigere Zahl ist 0,5 %

Die Schlagzeile erschreckt; die zweite Zahl unterweist. Schutzmaßnahmen senkten die Browser-ASR von 31,5 % auf 0,5 %, eine mehr als 60-fache Reduktion. Diese Lücke ist das gesamte Argument für mehrschichtige Verteidigung. Das Modell allein ist nicht Ihre Kontrolle. Die Klassifikatoren, Monitore und Richtlinien-Ebenen, die es umgeben, machen aus einem Eins-von-drei-Versagen ein Eins-von-zweihundert.

Umgebung (Claude Opus 4.8, Karte Mai 2026)	Schutzmaßnahmen	Angriffserfolgsrate
Browser-Nutzung, erweitertes Nachdenken	Keine	31,5 %
Browser-Nutzung, erweitertes Nachdenken	Aktiv	0,5 %
Coding-Werkzeugnutzung, adaptiver Angreifer	Keine	7,03 %
Coding-Werkzeugnutzung, adaptiver Angreifer	Aktiv	2,09 %

Lesen Sie die letzte Zeile genau. Eine Hijack-Rate von 0,5 % ist nicht null. Lässt man einen Agenten täglich durch Tausende Aktionen laufen, sind 0,5 % ein stetiges Rinnsal erfolgreicher Angriffe, kein Randfall, den man wegwinken kann. Restrisiko bleibt Restrisiko, bis Sie entscheiden, was ein Angreifer tatsächlich anrichten kann, sobald er einen dieser Münzwürfe gewinnt.

Warum eine veröffentlichte Zahl die eigentliche Nachricht ist

Die Zahl zählt weniger als die Tatsache, dass ein führendes Labor sie gedruckt hat. Zum ersten Mal können Sie Modelle nach Injection-Widerstand vergleichen, im Einkauf eine Schwelle setzen und dieselbe Offenlegung von jedem anderen Anbieter verlangen. Anthropic berichtete auch eine Red-Team-Kennzahl, bei der Opus 4.8 schlechter abschnitt als sein Vorgänger, und diese Bereitschaft, eine Verschlechterung zu veröffentlichen, macht den Rest der Karte vertrauenswürdig.

Machen Sie es also zu Ihrer Einkaufsfrage. Verlangen Sie von jedem Agenten-Anbieter eine Angriffserfolgsrate unter Injection, mit angegebenem Harness und angegebenen Schutzmaßnahmen. Kann er keine nennen, hat er sie nicht gemessen und kann Ihnen nicht sagen, wie exponiert Ihre Agenten sind. Dieselbe Disziplin gilt im eigenen Stack, weshalb ein Evaluierungs-Harness, mit dem man ein KI-System vor der Produktion testet die Grundlage ist, kein Nachgedanke.

Es ist ein Modell auf einem Harness

Die echte ASR Ihres Agenten hängt von Ihren Werkzeugen, Ihren Prompts und Ihren Datenquellen ab. Borgen Sie sich Anthropics Methode, nicht seine Zahl.

Zurückgehaltene Testsätze altern

Angreifer passen sich an. Eine im Mai gemessene Zahl ist ein Boden für jenen Monat, keine dauerhafte Garantie. Messen Sie neu, wenn sich das Bedrohungsmodell verschiebt.

ASR sagt nichts über den Schadensradius

Ein 0,5-%-Hijack, der Geld bewegen kann, ist schlimmer als ein 31,5-%-Hijack, der nur eine Seite zusammenfassen kann. Bewerten Sie die Folge, nicht nur die Wahrscheinlichkeit.

Wie Sie die Zahl Ihres eigenen Agenten senken

Der 60-fache Abfall in der Karte kam von geschichteten Schutzmaßnahmen, nicht von einem schlaueren Basismodell. Sie bauen genauso: Nehmen Sie an, dass das Modell gelegentlich getäuscht wird, und machen Sie dieses Versagen billig.

Behandeln Sie abgerufene Inhalte als Daten, nie als Anweisungen

Die meisten Injections kommen in Inhalten an, die der Agent lesen sollte. Halten Sie externen Text in einem getrennten Kanal von Ihren Anweisungen, markieren Sie ihn als nicht vertrauenswürdig, und hören Sie auf, Seitentext direkt in den Befehlskontext zu kleben. Das ist dieselbe Grenze, die eine Retrieval-Pipeline schützt, behandelt in RAG-Pipelines gegen Prompt Injection absichern.

Werkzeuge auf die Aufgabe beschränken, dann Egress per Default verweigern

Ein browsender Agent hat keinen Grund, zugleich Shell-Zugriff und Ihre Geheimnisse zu halten. Geben Sie jedem Agenten den engsten Werkzeugsatz, den die Aufgabe braucht, und legen Sie eine Default-Deny-Egress-Richtlinie um die Laufzeit, damit eine gekaperte Aktion nichts versenden kann, was sie stiehlt. Die Laufzeitversion davon ist dieselbe Härtung wie für selbst-gehostete KI-Infrastruktur: alles fallen lassen, nur das Gerechtfertigte zurückgeben.

Setzen Sie einen Menschen vor unumkehrbare Aktionen

Eine eingeschleuste Anweisung, die ein Dokument zusammenfassen kann, ist ein Ärgernis. Eine, die ein Repository löschen, eine Zahlung senden oder eine Kundenliste verschicken kann, ist ein Vorfall. Sperren Sie jede unumkehrbare oder folgenschwere Aktion hinter eine ausdrückliche menschliche Freigabe, damit die 0,5 %, die durchkommen, trotzdem nicht das tun können, was Sie am meisten fürchten. Die Orchestrierungs-Abwägungen hinter dieser Sperre stehen in was bei der Agenten-Orchestrierung im Produktionsmaßstab bricht.

Schutzmaßnahmen sind nicht kostenlos

Klassifikator- und Monitor-Ebenen kosten Latenz und Geld bei jeder Aktion. Die sicherste Konfiguration ist selten die billigste, und das Budgetgespräch gehört in den Entwurf, nicht danach.

Zu enge Filter brechen Vertrauen

Aggressive Injection-Filter erzeugen falsche Verweigerungen, die Nutzer darauf trainieren, sie zu umgehen. Justieren Sie gegen Ihren eigenen Evaluierungssatz, nicht gegen eine Anbieter-Voreinstellung, damit der Agent nützlich bleibt, während er geschützt bleibt.

Was ich diese Woche tun würde

Wenn Sie Agenten betreiben, die irgendetwas lesen, das sie nicht selbst verfasst haben, ist dies die Reihenfolge, die ich durcharbeiten würde, jeder Schritt für sich nützlich:

Wählen Sie Ihren folgenschwersten Agenten und schreiben Sie genau auf, was er anrichten kann, wenn er gekapert wird. Dieser Schadensradius ist Ihr echtes Risiko, nicht der Benchmark eines Modells.
Trennen Sie externe und abgerufene Inhalte von Ihren Anweisungen, und hören Sie auf, Seitentext als Befehle zu behandeln.
Setzen Sie eine menschliche Freigabe vor jede unumkehrbare Aktion.
Umhüllen Sie die Agenten-Laufzeit mit einer Default-Deny-Egress-Richtlinie samt ausdrücklicher Allow-Liste.
Schreiben Sie zwanzig Injection-Testfälle aus Ihrer eigenen Domäne und messen Sie Ihre ASR. Jetzt haben Sie eine eigene Zahl.
Führen Sie diese Tests bei jeder Modell- und Prompt-Änderung erneut aus, denn eine Zahl hilft erst, wenn man sie sich bewegen sieht.

Fazit

Prompt Injection steht seit 2023 an der Spitze der OWASP-Top-10 für LLM-Anwendungen, und das tut sie weiterhin. Was sich im Mai 2026 änderte, ist nicht die Bedrohung. Es ist, dass wir unsere Exposition endlich messen können, statt sie zu diskutieren. Nehmen Sie die von Anthropic veröffentlichte Methode, richten Sie sie auf Ihre eigenen Agenten, und behandeln Sie die zurückkommende Zahl als Beginn der Arbeit, nicht als deren Ende.

Weiterführende Lektüre: siehe RAG-Pipelines gegen Prompt Injection absichern, wie der Agenten-Skill-Marktplatz vergiftet wurde, selbst-gehostete KI-Infrastruktur absichern und was bei der Agenten-Orchestrierung im Produktionsmaßstab bricht.

Kurzreferenz

Mehrschichtige Verteidigung und was jede Ebene bringt

Kontrolle	Was sie stoppt	Verbleibende Lücke
Abgerufene Inhalte als Daten behandeln	Seiten-, E-Mail- oder Dokumenttext, der als Befehl ausgeführt wird	Daten, die so geschickt formuliert sind, dass sie als Anweisung gelesen werden
Werkzeuge mit geringsten Rechten	Ein gekaperter Agent, der Geheimnisse oder eine Shell erreicht	Schaden innerhalb der Werkzeuge, die er rechtmäßig hält
Default-Deny-Egress	Gestohlene Daten, die die Maschine verlassen	Lokale oder zerstörerische Aktionen, die kein Netz brauchen
Menschliche Freigabe bei folgenschweren Aktionen	Unumkehrbare Aktionen aus einem erfolgreichen Hijack	Freigabe-Müdigkeit, wenn die Sperre überstrapaziert wird

Häufig gestellte Fragen

Was ist eine Angriffserfolgsrate (ASR) bei Prompt Injection?

Eine Angriffserfolgsrate ist der Anteil der gegnerischen Injection-Versuche, die einen KI-Agenten erfolgreich dazu bringen, etwas zu tun, das er verweigern sollte. Anthropics System Card zu Claude Opus 4.8 (28. Mai 2026) berichtete eine ASR von 31,5 % für einen browser-nutzenden Agenten ohne Schutzmaßnahmen, die mit aktiven Schutzmaßnahmen auf 0,5 % fiel. Damit wird Prompt Injection von einer vagen Sorge zu einer Zahl, die man verfolgen und vergleichen kann.

Wie oft gelingt Prompt Injection gegen KI-Agenten?

Laut Anthropics Opus-4.8-System-Card wurde ein browser-nutzender Agent in 31,5 % der Fälle ohne Schutzmaßnahmen gekapert und in 0,5 % mit ihnen; in einer Coding-Werkzeug-Umgebung gegen einen adaptiven Angreifer lagen die Raten bei 7,03 % und 2,09 %. Das ist ein Modell auf einem Testharness. Die Rate Ihres eigenen Agenten hängt von seinen Werkzeugen, Prompts und Datenquellen ab, messen Sie sie also, statt die Zahl zu übernehmen.

Kann man Prompt Injection vollständig stoppen?

Nein. Schutzmaßnahmen senken die Rate stark, in Anthropics Browser-Messung um mehr als das 60-Fache, aber 0,5 % ist nicht null. Behandeln Sie den Rest als Restrisiko: Sperren Sie unumkehrbare und folgenschwere Aktionen hinter menschliche Freigabe, beschränken Sie Werkzeuge auf die Aufgabe und legen Sie Default-Deny-Egress um die Laufzeit, damit eine erfolgreiche Injection nichts versenden kann.

Wie messe ich das Prompt-Injection-Risiko meines eigenen KI-Agenten?

Bauen Sie mindestens zwanzig Injection-Testfälle aus Ihrer eigenen Domäne, führen Sie sie als Evaluierungs-Harness aus und erfassen Sie den Anteil der erfolgreichen als Ihre Angriffserfolgsrate. Führen Sie diese Suite dann bei jedem Modellwechsel und jeder Prompt-Änderung erneut aus, damit Sie die Zahl sich bewegen sehen. Die Methode zählt mehr als jede einzelne veröffentlichte Zahl.