Startseite / Blog / Sicherheits-Leitfaden

Sicherheits-Leitfaden

Der KI-Skill-Marktplatz ist das neue npm. Er wurde vergiftet.

RRogue AI·2026-06-03·12 Min. Lesezeit

Ein leuchtendes Regal eines KI-Agenten-Skill-Stores mit einem aufgebrochenen, vergifteten Paket, aus dem dunkle Schadsoftware ins Register sickert

Der KI-Agenten-Skill-Marktplatz ist das neue npm-Register, und er wurde gerade vergiftet. ClawHavoc platzierte über tausend bösartige Skills in OpenClaws ClawHub, bevor es jemand bemerkte, und alles, was es dafür brauchte, war ein eine Woche altes GitHub-Konto. Wir wiederholen eine Ebene höher jeden Lieferketten-Fehler, den wir längst gemacht haben.

Diesen Film habe ich genau so schon gesehen. npm hat uns beigebracht, dass jeder veröffentlichen kann, dass Namen besetzt werden und dass ein beliebtes Paket über Nacht still bösartig wird. PyPI hat uns dasselbe mit Typosquats und Post-Install-Skripten gelehrt. Browser-Erweiterungs-Stores haben gezeigt, dass ein fünf Sterne starkes Tool mit glänzender Beschreibung seine Nutzerbasis verkaufen kann, sobald es übernommen wird. Jetzt geben wir autonomen Agenten einen Marktplatz voller Community-„Skills“ mit Lesezugriff auf Dateien, Netzwerkaufrufen und Shell, und wundern uns, wenn es blutet.

Was war der ClawHavoc-Angriff?

ClawHavoc war eine koordinierte Lieferketten-Kampagne, die 1.184 bösartige Skills in ClawHub platzierte, dem offenen Skill-Marktplatz der viralen Agentenplattform OpenClaw. Der erste bösartige Skill landete am 27. Januar 2026, die Kampagne eskalierte am 31. Januar, und Koi Security gab ihr am 1. Februar den Namen. Repello AI schätzt, dass die Kampagne rund 300.000 Agenten-Nutzer erreichte.

Die Skills waren nicht plump. Sie tarnten sich als beliebte, stark nachgefragte Tools und schleusten ihre Payloads auf drei Wegen ein: gestaffelte Downloads, die nach der Installation weitere Schadsoftware nachzogen, Reverse-Shells über Python-Systemaufrufe und direkte Datenraub-Payloads beim ersten Aufruf. Ein Nachscan am 16. Februar, über den eSecurity Planet berichtete, fand immer noch 824 bestätigte bösartige Skills in einem Register, das auf über 10.700 Einträge angewachsen war. Auf macOS war die Payload eine Variante des Atomic macOS Stealer, der Browser-Zugangsdaten, Schlüsselbunde, Telegram-Daten, SSH-Schlüssel und Krypto-Wallets abgriff, komprimierte und exfiltrierte.

Warum ist das Vertrauensmodell des Marktplatzes kaputt?

Das Vertrauensmodell ist kaputt, weil es den Nutzer bittet, Code anhand seiner Beschreibung zu beurteilen. Um zur Zeit von ClawHavoc auf ClawHub zu veröffentlichen, brauchte man nur ein mindestens eine Woche altes GitHub-Konto. Keine automatische statische Analyse, kein Code-Review, keine Signaturpflicht. Nichts verband die freundliche Skill-Beschreibung mit dem, was der Code tatsächlich tat, sobald ein Agent ihn ausführte.

Diese Lücke ist der ganze Angriff. Ein Mensch, der ein npm-Paket installiert, kann zumindest den Quelltext und die Install-Skripte lesen. Ein autonomer Agent, der einen Skill aus einem Marktplatz wählt, liest die natürlichsprachliche Beschreibung, entscheidet, dass sie zur Aufgabe passt, und führt ihn aus. Die Beschreibung ist vom Angreifer kontrollierte Werbung. Das Verhalten ist, was immer der Autor geschrieben hat. Wenn beide auseinanderlaufen, kann der Agent es nicht erkennen, und der Nutzer, der die Aufgabe delegiert hat, ebenso wenig.

Identität ist kostenlos

Ein eine Woche altes GitHub-Konto ist keine Identität. Es ist ein Wegwerfartikel. Reputation, deren Erstellung nichts kostet, ist Reputation, die ein Angreifer hundertfach prägen kann, und genau das tat ClawHavoc.

Beschreibungen werden vertraut, Code nicht geprüft

Das Auswahlsignal ist die Selbstbeschreibung des Skills und seine Sternzahl. Beides lässt sich fälschen. Keine Ebene der Kette verifiziert, dass der Code dem Versprechen entspricht.

Berechtigungen sind ambient

Ein Skill erbt, was immer der Agent tun darf: das Home-Verzeichnis lesen, ausgehende Aufrufe machen, Shell ausführen. Es gibt keine Berechtigungsgrenze pro Skill, also kann ein Notiz-Skill auf Ihre SSH-Schlüssel zugreifen.

Keine Provenienz

Nichts beweist, dass das veröffentlichte Artefakt ohne Manipulation aus dem sichtbaren Quelltext, vom genannten Autor, gebaut wurde. Das Register liefert Bytes, keine nachprüfbare Lückenlosigkeit der Herkunft.

Das haben wir schon einmal gelöst. Hier ist die Landkarte.

Jede Verteidigung, die die Welt der Paket-Register nach ihren eigenen Vorfällen nachrüstete, lässt sich direkt auf den Skill-Marktplatz übertragen. Die Agentenebene steht keinen neuartigen Angriffen gegenüber. Sie steht npm-Angriffen aus dem Jahr 2018 gegenüber, gerichtet gegen Software, die das Immunsystem, das npm über Jahre aufbaute, noch nicht entwickelt hat. Das ist der Vergleich, der am meisten zählt.

Fehlermuster	npm / PyPI / Erweiterungen	KI-Skill-Marktplatz (heute)	Die Verteidigung, die wirkte
Jeder kann veröffentlichen	E-Mail-verifiziertes Konto	Eine Woche altes GitHub-Konto	Verifizierte Herausgeber, Namespace-Besitz, 2FA beim Veröffentlichen
Code-Ausführung bei Installation	postinstall-Skripte, setup.py	Gestaffelte Downloads, Reverse-Shells beim ersten Lauf	Sandbox-Installation, keine implizite Skript-Ausführung
Vertrauen nach Beliebtheit	Download-Zahlen, Sterne	Skill-Beschreibung, Sternzahl	Provenienz-Attestierung, an den Quell-Build gebunden
Manipuliertes Artefakt	Gekaperter Maintainer veröffentlicht eine böse Version	Keine Verbindung zwischen Quelle und gelieferten Bytes	Sigstore-Signierung, SLSA-Build-Provenienz
Übermäßige Berechtigungen	Ein Paket kann die gesamte Umgebung lesen	Ein Skill erbt alle Agenten-Berechtigungen	Least-Privilege-Scopes, Capability-Manifeste, Egress-Allow-Lists

Was schützt tatsächlich dagegen?

Vier Kontrollen schützen einen Agenten wirklich vor einem vergifteten Marktplatz: kryptografische Provenienz, damit Sie Builds statt Beschreibungen vertrauen, Least-Privilege-Berechtigungen, damit ein Skill nicht erreicht, was ihn nichts angeht, Laufzeit-Egress-Kontrolle, damit gestohlene Daten nirgendwo hingehen, und Verhaltensprüfung statt Lesen der Werbung. Die Reihenfolge zählt, denn die letzten beiden wirken auch dann, wenn die ersten beiden versagen.

Provenienz und Signierung statt Beschreibungen

Vertrauen Sie dem Build, nicht dem Werbetext. Ein Skill sollte mit einer prüfbaren Signatur und einer Provenienz-Attestierung kommen, die das gelieferte Artefakt auf einen bestimmten Quell-Commit und Build zurückführt. Sigstore-keyless-Signierung und SLSA-Provenienz tun das bereits für Container-Images und Pakete. Solange ein Marktplatz sie nicht verlangt, fixieren Sie Skills auf einen geprüften Commit-Hash und behandeln Sie einen unsignierten Skill so, wie Sie eine unsignierte Binärdatei eines Fremden behandeln würden.

Least-Privilege-Berechtigungen für Agenten

Ein Skill, der Dokumente zusammenfasst, hat keinen Grund, Ihre SSH-Schlüssel zu lesen oder einen ausgehenden Socket zu einem unbekannten Host zu öffnen. Geben Sie jedem Skill den engsten Berechtigungssatz, den die Aufgabe braucht, vorab deklariert, von der Laufzeit erzwungen. Das ist dieselbe Lektion, die Container-Härtung lehrt. Über die Laufzeit-Variante davon habe ich in selbst-gehostete KI absichern geschrieben, und das Prinzip ist identisch: standardmäßig alles entziehen, nur das Gerechtfertigte zurückgeben.

Laufzeit-Egress-Kontrolle

Die AMOS-Payload musste nach Hause telefonieren, um etwas wert zu sein. Gestohlene Schlüsselbunde und Wallets sind nutzlos, solange sie die Maschine nicht verlassen. Eine Default-Deny-Egress-Richtlinie auf der Netzwerkebene bedeutet, dass ein kompromittierter Skill laufen und trotzdem nichts exfiltrieren kann, weil die Verbindung zum Server des Angreifers verweigert wird. Das ist die Kontrolle, die Sie rettet, wenn Provenienz und Berechtigungen beide versagen, und sie ist günstig einzurichten.

Vertrauen Sie der Skill-Beschreibung nicht

Die Beschreibung wird vom Angreifer kontrolliert. Behandeln Sie sie als Werbeaussage, nicht als Spezifikation. Fixieren Sie auf bestimmte geprüfte Versionen, lesen Sie den tatsächlichen Code oder ein vertrauenswürdiges Review davon, bevorzugen Sie Skills mit prüfbarer Provenienz, und lassen Sie einen Agenten niemals automatisch einen Skill installieren, den er mitten in einer Aufgabe gefunden hat. Der Komfort von „der Agent fand ein Tool und nutzte es“ ist genau der Komfort, den ClawHavoc als Waffe nutzte.

Das ist systemisch, kein Einzelfall

ClawHavoc ist der lauteste Fall, nicht der einzige. Ein Cluster verwandter Angriffe im selben Zeitfenster zeigt, dass die Schwachstelle des Agenten-Ökosystems strukturell ist. MemoryTrap vergiftete den persistenten Speicher eines Coding-Agenten, sodass sich die Kompromittierung über Sitzungen hinweg ausbreitete. SymJack nutzte Symlink-Hijacking für Remote Code Execution und brach sechs KI-Coding-Agenten auf einmal. TrustFall erreichte Claude Code, Cursor, Gemini CLI und GitHub Copilot über einen zurückgefallenen Vertrauensdialog mit einem einzigen Klick.

Unter all dem liegt Prompt-Injection, die OWASP als LLM01 einstuft, das Risiko Nummer eins für LLM-Anwendungen 2025 und 2026. Ein Review von 78 Studien aus dem Januar 2026 fand, dass jeder größere Coding-Agent Prompt-Injection erlag, wobei adaptive Angriffe in mehr als 85% der Fälle trafen. Ein Marktplatz ist nur ein Liefermechanismus für diese darunterliegende Schwäche. Wenn Sie einen Agenten entwerfen, der seine eigenen Tools wählt, lesen Sie, wie das mit dem zusammenhängt, was bei der Agenten-Orchestrierung in Produktion bricht.

Die Kompromisse, die niemand gern ausspricht

Jede Verteidigung hier kostet das, was diese Marktplätze viral machte: reibungslosen Selbstbedienungs-Komfort. Es gibt eine echte Spannung, und so zu tun, als gäbe es sie nicht, ist der Weg, auf dem man bei Sicherheitstheater statt Sicherheit landet.

Signaturpflichten verlangsamen das Veröffentlichen

Verpflichtende Provenienz legt die Latte auch für ehrliche Beitragende höher. Die Antwort ist nicht, sie wegzulassen, sondern das Tooling unsichtbar zu machen, so wie Sigstore die keyless-Signierung nahezu kostenlos machte.

Least Privilege bricht faule Skills

Manche Skills brauchen wirklich breiten Zugriff. Ein Capability-Manifest zwingt Autoren, ihn zu deklarieren und zu begründen, und das ist der Sinn. Die Reibung ist die Sicherheit.

Egress-Kontrolle braucht Netzwerk-Infrastruktur

Default-Deny-Egress ist in einer selbst-gehosteten Docker-Flotte trivial und auf einem Entwickler-Laptop umständlich. Diese Asymmetrie ist selbst ein Argument, Agenten in kontrollierten Umgebungen statt direkt auf Endgeräten laufen zu lassen.

Was ich diese Woche tun würde

Wenn Sie Agenten betreiben, die Skills aus einem Marktplatz ziehen, ist das die Reihenfolge, die ich durcharbeiten würde, jeder Schritt für sich nützlich:

Inventarisieren Sie jeden Skill, den Ihre Agenten installieren können, und fixieren Sie jeden auf einen geprüften Commit, nicht auf ein fließendes „latest“-Tag.
Schalten Sie Auto-Discovery und Auto-Install ab. Ein Agent sollte niemals einen Skill ausführen, den kein Mensch freigegeben hat.
Setzen Sie eine Default-Deny-Egress-Richtlinie vor die Agenten-Laufzeit, mit einer expliziten Allow-List der Endpunkte, die er wirklich braucht.
Beschränken Sie die Agenten-Berechtigungen auf die Aufgabe. Ein Dokumenten-Agent braucht keine Shell und keinen SSH-Schlüssel-Zugriff.
Bevorzugen Sie Skills mit prüfbarer Provenienz und behandeln Sie unsignierte Skills standardmäßig als nicht vertrauenswürdig.
Protokollieren Sie, welche Skills laufen und was sie erreichen, damit das nächste ClawHavoc in Ihrer Telemetrie auftaucht statt in einem Breach-Report.

Fazit

Das Schmerzhafte ist, dass nichts davon neu ist. Wir lernten es auf die harte Tour mit npm und PyPI, schrieben das Playbook und bauten das Tooling. Das Agenten-Ökosystem sprang direkt zu einem Marktplatz ohne Immunsystem, weil schnell ausliefern wichtiger war als sicher ausliefern. ClawHavoc ist die Rechnung für diese Wahl. Die Lösung ist kein klügeres Modell. Es sind Provenienz, Least Privilege und Egress-Kontrolle, mit demselben Ernst angewandt, den wir den Paket-Registern irgendwann gaben, die wir schon einmal vergifteten.

Weiterführende Lektüre: siehe RAG-Pipelines gegen Prompt-Injection absichern, warum KI-Projekte vor der Produktion scheitern, EU AI Act Compliance für Entwickler und den Private-KI-Ansatz hinter Vaultic. Wenn Sie ein LLM in echte Systeme einbinden, beginnen Sie mit warum selten das Modell das Problem ist.

Häufig gestellte Fragen

Was war der ClawHavoc-Angriff?

ClawHavoc war eine koordinierte Lieferketten-Kampagne, die 1.184 bösartige Skills in ClawHub platzierte, dem offenen Skill-Marktplatz der Agentenplattform OpenClaw. Der erste bösartige Skill erschien am 27. Januar 2026, die Kampagne eskalierte am 31. Januar, und Koi Security gab ihr am 1. Februar den Namen. Sie erreichte rund 300.000 Agenten-Nutzer. Als beliebte Tools getarnte Skills lieferten gestaffelte Download-Malware, Reverse-Shells und direkte Datenraub-Payloads, darunter eine Atomic-macOS-Stealer-Variante, die Zugangsdaten, Schlüsselbunde, SSH-Schlüssel und Krypto-Wallets abgriff.

Warum ist das Vertrauensmodell des KI-Skill-Marktplatzes kaputt?

Weil es Nutzer und Agenten bittet, Code anhand seiner Beschreibung zu beurteilen. Zum Veröffentlichen auf ClawHub brauchte man nur ein mindestens eine Woche altes GitHub-Konto, ohne statische Analyse, Code-Review oder Signierung. Ein autonomer Agent wählt einen Skill anhand seiner natürlichsprachlichen Beschreibung und führt ihn aus, doch die Beschreibung ist vom Angreifer kontrollierte Werbung, während das Verhalten ist, was immer der Autor geschrieben hat. Laufen beide auseinander, kann es weder der Agent noch der Nutzer erkennen.

Wie ähnelt das den npm- und PyPI-Lieferketten-Angriffen?

Es ist dieselbe Angriffsklasse eine Ebene höher. npm und PyPI litten daran, dass jeder veröffentlichen konnte, an Code-Ausführung bei der Installation, an Vertrauen nach Beliebtheit, an gekaperten Maintainern und an Paketen mit übermäßigen Berechtigungen. Der Skill-Marktplatz wiederholt jeden dieser Punkte. Die Paket-Welt löste sie mit verifizierten Herausgebern, Sandbox-Installationen, Provenienz-Attestierung, Sigstore-Signierung und Least-Privilege-Scopes. Das Agenten-Ökosystem hat dieses Immunsystem noch nicht übernommen.

Was schützt einen KI-Agenten wirklich vor einem vergifteten Marktplatz?

Vier Kontrollen: kryptografische Provenienz und Signierung, damit Sie dem Build statt der Beschreibung vertrauen, Least-Privilege-Berechtigungen, damit ein Skill keine Dateien oder Hosts erreicht, die ihn nichts angehen, Laufzeit-Default-Deny-Egress-Kontrolle, damit gestohlene Daten nirgendwo exfiltrieren können, und Verhaltensprüfung statt Vertrauen in die Skill-Beschreibung. Die letzten beiden wirken auch dann, wenn Provenienz und Berechtigungen versagen, weshalb Egress-Kontrolle die Kontrolle ist, die Sie im Ernstfall rettet.

Sollte ein KI-Agent Skills automatisch installieren, die er während einer Aufgabe findet?

Nein. Auto-Discovery und Auto-Install sind genau der Komfort, den ClawHavoc als Waffe nutzte. Fixieren Sie jeden Skill auf einen geprüften Commit-Hash, deaktivieren Sie Auto-Install und verlangen Sie, dass ein Mensch jeden neuen Skill freigibt, bevor ein Agent ihn ausführt. Behandeln Sie unsignierte Skills standardmäßig als nicht vertrauenswürdig, so wie Sie eine unsignierte Binärdatei eines Fremden behandeln würden.

Der KI-Skill-Marktplatz ist das neue npm. Er wurde vergiftet.

Was war der ClawHavoc-Angriff?

Warum ist das Vertrauensmodell des Marktplatzes kaputt?

Das haben wir schon einmal gelöst. Hier ist die Landkarte.

Was schützt tatsächlich dagegen?

Provenienz und Signierung statt Beschreibungen

Least-Privilege-Berechtigungen für Agenten

Laufzeit-Egress-Kontrolle

Vertrauen Sie der Skill-Beschreibung nicht

Das ist systemisch, kein Einzelfall

Die Kompromisse, die niemand gern ausspricht

Was ich diese Woche tun würde

Fazit

Häufig gestellte Fragen

Was war der ClawHavoc-Angriff?

Warum ist das Vertrauensmodell des KI-Skill-Marktplatzes kaputt?

Wie ähnelt das den npm- und PyPI-Lieferketten-Angriffen?

Was schützt einen KI-Agenten wirklich vor einem vergifteten Marktplatz?

Sollte ein KI-Agent Skills automatisch installieren, die er während einer Aufgabe findet?

Weitere Artikel

Ihr KI-Agent wird über gestohlene Tokens gekapert, nicht Prompts

Jeder KI-Agent ist eine nicht-menschliche Identität. Schluss mit God-Mode.