Zero-Day-Maschine: Warum Anthropic sein stärkstes Modell zurückhält

Anthropic hat ein Modell gebaut, das Sicherheitslücken findet, die jahrzehntelang unentdeckt blieben – und veröffentlicht es bewusst nicht.

Claude Mythos Preview ist kein Forschungsexperiment, sondern bereits im Einsatz. Und genau das ist das Problem.

In wenigen Wochen hat das Modell Tausende kritische Zero-Day-Schwachstellen identifiziert, darunter einen 27 Jahre alten Bug in OpenBSD und eine 16 Jahre alte Lücke, die fünf Millionen automatisierte Tests überlebt hatte.

Was Mythos anders macht

Claude Mythos Preview ist kein Sicherheits-Chatbot. Es ist ein allgemeines Sprachmodell, das laut Anthropic deutlich über die bisherige Claude-Generation (Haiku, Sonnet, Opus) hinausgeht – intern als vierte Tier-Stufe bezeichnet.

Was Mythos von früheren Modellen unterscheidet, ist die Effizienz beim Exploit-Building: Während Claude Opus 4.6 bei mehreren hundert Versuchen zwei Mal einen funktionierenden JavaScript-Shell-Exploit für Firefox 147 entwickeln konnte, gelang das Mythos Preview 181 Mal. Kein Faktor 2, sondern ein Sprung um den Faktor 90.

Zum Vergleich: Klassische Security-Teams benötigen für einen stabilen, reproduzierbaren Exploit oft Stunden oder Tage – und viele Versuche bleiben erfolglos. Mythos skaliert das.

Was vermutlich dahinter steckt: Mythos scheint nicht nur Code zu analysieren, sondern systematisch Hypothesen zu generieren, zu testen und zu verwerfen – ähnlich wie ein menschlicher Security-Researcher, aber massiv parallelisiert. Längerer Kontext bedeutet, dass das Modell ganze Codebases im Zusammenhang versteht, nicht nur einzelne Funktionen. Iterative Feedback-Loops erlauben, fehlgeschlagene Exploit-Versuche sofort auszuwerten und die nächste Hypothese anzupassen.

Das ist keine lineare Verbesserung – das ist ein anderes Arbeitsmodell.

Project Glasswing – kontrollierter Zugang statt offener Release

Anthropic hat sich entschieden, Mythos Preview nicht öffentlich verfügbar zu machen. Stattdessen läuft das Modell im Rahmen von Project Glasswing – einem koordinierten Sicherheitsprogramm mit 12 Launch-Partnern und über 40 weiteren beteiligten Organisationen.

Die Launch-Partner umfassen Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, die Linux Foundation, Microsoft, NVIDIA und Palo Alto Networks.

Der Name steht für Transparenz und koordinierte Offenlegung. Partner erhalten abgestuften Zugang zum Modell – mit dem Auftrag, Schwachstellen in ihrer eigenen kritischen Infrastruktur zu finden und zu beheben, bevor diese in der Praxis ausgenutzt werden können.

Unklar bleibt, wie strikt dieser Zugang kontrolliert wird – und ob sich solche Fähigkeiten langfristig überhaupt exklusiv halten lassen. Die Geschichte von Dual-Use-Technologien spricht eher dagegen.

Anthropic stellt dafür bis zu 100 Millionen Dollar in Nutzungsguthaben bereit sowie 4 Millionen Dollar in Spenden an Open-Source-Sicherheitsorganisationen.

Warum das Gleichgewicht kippt

Das eigentliche Problem ist kein technisches – es ist ein Gleichgewichtsproblem.

Ein Modell wie Mythos senkt nicht nur die Kosten für Verteidigung – sondern auch die Einstiegshürde für Angriffe. Fähigkeiten, die bisher spezialisierten Red-Teams vorbehalten waren, werden damit skalierbar.

Bug finden Klassisch: Tage bis Wochen. Mit Mythos-Niveau: Minuten.

Exploit bauen Klassisch: selten erfolgreich, hoher manueller Aufwand. Mit Mythos-Niveau: stark automatisiert, reproduzierbar.

Skalierung Klassisch: begrenzt durch Teamgröße. Mit Mythos-Niveau: parallelisierbar auf beliebig viele Zielsysteme.

Anthropics Argument ist, dass diese Verschiebung kommt – unabhängig davon, ob Mythos veröffentlicht wird oder nicht. Der Unterschied ist, ob die Verteidiger einen Vorsprung bekommen, um sich vorzubereiten.

Was das für Web- und Cloud-Betreiber bedeutet

Für alle, die produktive Systeme betreiben – ob API, SaaS, Cloud-Infrastruktur oder Web-Anwendung – ändert sich kurzfristig mehr, als vielen bewusst ist:

Dependency-Scanning reicht nicht mehr. Klassische Tools wie Snyk oder Dependabot erkennen bekannte CVEs. Mythos-artige Modelle finden unbekannte Schwachstellen – das ist eine andere Kategorie. Die Lücke, die fünf Millionen automatisierte Tests überlebt hat, wäre mit bisherigen Werkzeugen schlicht nicht gefunden worden.

Alte Fehler werden relevant. Lücken, die seit Jahrzehnten in Bibliotheken oder Firmware existieren, wurden bisher schlicht nicht systematisch gesucht. Dependencies, die lange als stabil galten, können zur Angriffsfläche werden. Wie stark CVEs Open-Source-Maintainer bereits jetzt unter Druck setzen, zeigt, dass die Ausgangslage nicht entspannt ist.

API- und Integrationspunkte sind besonders exponiert. Modellgestützte Angriffe zielen auf Schnittstellen zu Drittsystemen – Webhooks, OAuth-Flows, Third-Party-SDKs. Wer viele externe Anbindungen betreibt, hat die größte Angriffsfläche.

Threat Modeling wird wichtiger. Nicht nur Code prüfen, sondern systematisch Angriffswege durchdenken: über APIs, State Machines, Auth-Flows. Zero-Trust-Prinzipien und „Assume breach” als Designprinzip – Systeme so bauen, dass einzelne Exploits nicht direkt zu vollständigem Zugriff führen.

Compliance-Anforderungen werden sich anpassen. DSGVO-konforme Systeme, ISO-Zertifizierungen und regulatorische Audits werden KI-gestützte Sicherheitsprüfungen zunehmend einschließen – nicht als Option, sondern als Anforderung.

Was noch unklar ist

Der Artikel über Project Glasswing kommt mit beeindruckenden Zahlen – aber einige Fragen bleiben offen:

Wie hoch ist die False-Positive-Rate bei den gefundenen Lücken?
Funktioniert Mythos gleich gut über verschiedene Sprachen und Stacks?
Wie viel menschliche Nacharbeit ist nötig, um einen gefundenen Bug tatsächlich auszunutzen?
Wie gut lassen sich die Safeguards, die Anthropic entwickeln will, wirklich durchsetzen?

Diese Fragen sind nicht rhetorisch. Die Antworten bestimmen, ob Glasswing ein ernsthafter Sicherheitsbeitrag ist – oder ein gut kommunizierter Verzögerungsversuch.

Einordnung

Anthropic macht hier etwas Ungewöhnliches: Sie veröffentlichen ein Modell, das sie für zu gefährlich halten, um es öffentlich zugänglich zu machen – und erklären transparent, warum.

Das ist kein PR-Move. Es ist ein Eingeständnis, dass die Entwicklung von KI-Fähigkeiten und die Entwicklung von KI-Safeguards nicht mehr synchron laufen. Wie Anthropic mit solchen Zielkonflikten umgeht, zeigt sich auch im Umgang mit staatlichen Anfragen. Mythos existiert. Die Schutzmaßnahmen dafür noch nicht vollständig.

Mythos ist kein Ausblick auf die Zukunft – es ist ein Hinweis darauf, dass sie bereits begonnen hat. Die offene Frage ist nicht, ob solche Modelle verbreitet werden. Sondern wann.