Warum Anthropics neues Modell vor allem als Desktop-Agent überzeugt
Sonnet 4.6 ersetzt das bisherige Sonnet-Modell in allen Claude-Plänen. Die Benchmarks sind solide, das Kontextfenster wächst auf eine Million Tokens, und die Kontext-Kompaktierung verspricht stabilere Sessions. Aber das alles ist Beiwerk. Die eigentliche Nachricht steckt in zwei Wörtern: Computer Use.
Was sich auf dem Papier ändert
Sonnet 4.6 ist als Mid-Tier-Modell positioniert, erreicht in Coding- und Agenten-Benchmarks aber nahezu Flagship-Niveau. Es ist in Claude Free, Pro und Team verfügbar, dazu per API sowie über AWS Bedrock und Google Vertex.
Die wichtigsten Eckdaten:
| Feature | Details |
|---|---|
| Kontextfenster | Bis zu 1M Tokens (Beta, primär API) |
| Kontext-Kompaktierung | Automatische Verdichtung älterer Gesprächsteile |
| Coding | Nutzerpräferenz gegenüber Sonnet 4.5, teils über früherem Opus |
| Agenten-Benchmarks | Starke Resultate in Planungs- und Autonomie-Tests |
| Safety Level | ASL-3 (neue Risikoklasse) |
Das 1M-Token-Fenster klingt beeindruckend, ist aber aktuell nur über die API nutzbar, nicht in der normalen Chat-App. Für die meisten Nutzer bleibt das vorerst ein theoretischer Vorteil.
Die Kontext-Kompaktierung ist hingegen sofort spürbar: Das Modell fasst ältere Teile einer Unterhaltung automatisch zusammen, sodass lange Sessions weniger Abrisse und Wiederholungen produzieren. Wer mit Claude an größeren Projekten arbeitet, merkt den Unterschied.
Computer Use: Vom Chatbot zum Desktop-Agenten
Hier liegt der eigentliche Sprung. „Computer Use” bedeutet: Das Modell bedient Anwendungen wie ein Mensch. Es sieht den Bildschirm, plant Schritte und führt Maus- und Tastaturaktionen aus. Nicht über APIs, sondern direkt auf der Oberfläche.
So funktioniert es
Das Modell erkennt UI-Elemente in Screenshots, leitet daraus konkrete Aktionen ab und korrigiert sich bei Fehlern selbstständig. Ein klassischer Agenten-Loop, aber eben auf Desktop-Ebene statt in einer API-Sandbox.
Wo die Verbesserungen liegen
Sonnet 4.6 ist nicht das erste Modell mit Computer Use, aber das erste, bei dem die Qualität für produktive Szenarien reicht. Die konkreten Fortschritte:
- Browser-Steuerung: Tabs wechseln, navigieren, Copy/Paste über Websites hinweg. Stabil genug für mehrstufige Recherche-Workflows.
- Spreadsheets: Filter setzen, Formeln anwenden, in großen Tabellen navigieren. Vorher ein Schwachpunkt, jetzt brauchbar.
- Webformulare: Mehrstufige Formulare ausfüllen, Daten zwischen Anwendungen übertragen. Der klassische RPA-Use-Case, aber ohne starre Skripte.
- Legacy-Tools ohne API: Genau hier wird es spannend. Jede Anwendung mit einer Oberfläche wird automatisierbar, auch wenn sie keine Schnittstelle anbietet.
In OSWorld, dem Standard-Benchmark für Computer Use, zeigt Sonnet 4.6 massive Sprünge. Bei bestimmten Büro- und Screen-Tasks wird von menschennahen Leistungen berichtet.
Was das für die Praxis bedeutet
Computer Use macht aus Claude einen RPA-Konkurrenten, der keine starre Konfiguration braucht. Du beschreibst, was passieren soll, und das Modell findet den Weg.
Konkrete Szenarien:
- Rechnungen aus Webportalen herunterladen und nach Datum in Ordnern sortieren
- Daten aus einem CRM in eine Tabelle übertragen, filtern und als Report exportieren
- Formulare in Legacy-Systemen ausfüllen, die keine API haben
- Browser-basierte Workflows: Preise vergleichen, Informationen aus mehreren Quellen zusammentragen
Das ist keine Zukunftsmusik. Die technischen Bausteine sind da:
- LLM + Planning: Versteht natürliche Sprache, plant mehrstufige Workflows, korrigiert sich bei Fehlschlägen
- Computer Vision: Erkennt Buttons, Text, Icons und Tabellen in Screenshots
- Action-Policy: Leitet aus Weltzustand und Ziel konkrete UI-Aktionen ab
- Runtime: Führt Maus- und Keyboard-Events auf einem echten oder virtuellen Desktop aus
Sicherheit: ASL-3 und Prompt Injection
Anthropic stuft Sonnet 4.6 unter AI Safety Level 3 ein. Das ist ein neues Sicherheitsniveau, das stärkere interne Schutzmaßnahmen für die Modellgewichte und spezifische Einschränkungen für CBRN-relevante Szenarien umfasst.
Für Computer Use ist besonders relevant:
Prompt Injection
Wenn ein Modell eigenständig im Browser navigiert, wird Prompt Injection zum echten Risiko. Eine bösartige Webseite könnte versuchen, dem Agenten Anweisungen unterzuschieben. Sonnet 4.6 ist explizit dagegen gehärtet, das Modell soll solche eingebetteten Befehle erkennen und ignorieren.
Bessere Refusals
Die Guardrails greifen gezielter. Das bedeutet: weniger unnötige Ablehnungen bei legitimen Anfragen, während sicherheitskritische Themen weiter blockiert bleiben. Wer mit früheren Claude-Versionen gearbeitet hat, kennt das Problem übervorsichtiger Ablehnungen. Hier hat Anthropic nachgebessert.
Was ASL-3 signalisiert
Die Einstufung ist auch ein Signal: Die Modelle werden leistungsfähig genug, dass Anthropic selbst eine höhere Risikoklasse für angemessen hält. Die Maßnahmen sind bewusst eng fokussiert und sollen normale Business-Use-Cases nicht stören, aber sie zeigen, wohin die Reise geht.
Coding und Agenten-Workflows
Neben Computer Use verbessert sich Sonnet 4.6 auch als Coding-Assistent:
- Weniger Laziness: Das Modell zieht Aufgaben konsequenter durch, statt nach halber Arbeit aufzuhören
- Bessere Wiederverwendung: Vorhandene Logik wird erkannt und genutzt, statt alles neu zu schreiben
- Stabilere Agenten-Ketten: Längere autonome Workflows laufen zuverlässiger durch
In Agenten-Benchmarks wie der Vending-Bench Arena und diversen Finanz- und Planungstests zeigt das Modell starke Resultate. Der Fokus auf wirtschaftlich relevante Autonomie ist klar erkennbar.
Einordnung
Sonnet 4.6 ist kein revolutionäres neues Modell. Es ist ein gezieltes Update, das an den richtigen Stellen nachschärft. Das 1M-Token-Fenster und die Kontext-Kompaktierung sind nette Verbesserungen. Die Coding-Performance ist solide.
Aber Computer Use ist die Geschichte. Wenn ein Sprachmodell zuverlässig genug wird, um echte Desktop-Anwendungen zu bedienen, verschiebt sich die Automatisierungsgrenze fundamental. Nicht mehr nur Code und APIs, sondern alles mit einer Oberfläche wird zum potenziellen Automatisierungsziel.
Die Einschränkungen sind real: Captchas, fragile UIs und hochkritische Aktionen ohne Review bleiben problematisch. Und die Sicherheitsfragen rund um Browser-Agenten sind nicht trivial. Aber die Richtung ist klar, und Sonnet 4.6 ist der bisher überzeugendste Schritt dorthin.