Claude Sonnet 4.6: Das eigentliche Update ist Computer Use

Sonnet 4.6 ersetzt das bisherige Sonnet-Modell in allen Claude-Plänen. Die Benchmarks sind solide, das Kontextfenster wächst auf eine Million Tokens, und die Kontext-Kompaktierung verspricht stabilere Sessions. Aber das alles ist Beiwerk. Die eigentliche Nachricht steckt in zwei Wörtern: Computer Use.

Was sich auf dem Papier ändert

Sonnet 4.6 ist als Mid-Tier-Modell positioniert, erreicht in Coding- und Agenten-Benchmarks aber nahezu Flagship-Niveau. Es ist in Claude Free, Pro und Team verfügbar, dazu per API sowie über AWS Bedrock und Google Vertex.

Die wichtigsten Eckdaten:

Feature	Details
Kontextfenster	Bis zu 1M Tokens (Beta, primär API)
Kontext-Kompaktierung	Automatische Verdichtung älterer Gesprächsteile
Coding	Nutzerpräferenz gegenüber Sonnet 4.5, teils über früherem Opus
Agenten-Benchmarks	Starke Resultate in Planungs- und Autonomie-Tests
Safety Level	ASL-3 (neue Risikoklasse)

Das 1M-Token-Fenster klingt beeindruckend, ist aber aktuell nur über die API nutzbar, nicht in der normalen Chat-App. Für die meisten Nutzer bleibt das vorerst ein theoretischer Vorteil.

Die Kontext-Kompaktierung ist hingegen sofort spürbar: Das Modell fasst ältere Teile einer Unterhaltung automatisch zusammen, sodass lange Sessions weniger Abrisse und Wiederholungen produzieren. Wer mit Claude an größeren Projekten arbeitet, merkt den Unterschied.

Computer Use: Vom Chatbot zum Desktop-Agenten

Hier liegt der eigentliche Sprung. „Computer Use” bedeutet: Das Modell bedient Anwendungen wie ein Mensch. Es sieht den Bildschirm, plant Schritte und führt Maus- und Tastaturaktionen aus. Nicht über APIs, sondern direkt auf der Oberfläche.

So funktioniert es

Textauftrag Du beschreibst die Aufgabe in natürlicher Sprache

Planung Das Modell zerlegt sie in Teilschritte

Bildschirm lesen Screenshots werden analysiert (Computer Vision)

Aktionen ausführen Mausklicks, Tastatureingaben, Navigation

Feedback-Schleife Neuer Screenshot – Teilziel erreicht?

Ergebnis Zusammenfassung + abgelegte Daten

Das Modell erkennt UI-Elemente in Screenshots, leitet daraus konkrete Aktionen ab und korrigiert sich bei Fehlern selbstständig. Ein klassischer Agenten-Loop, aber eben auf Desktop-Ebene statt in einer API-Sandbox.

Wo die Verbesserungen liegen

Sonnet 4.6 ist nicht das erste Modell mit Computer Use, aber das erste, bei dem die Qualität für produktive Szenarien reicht. Die konkreten Fortschritte:

Browser-Steuerung: Tabs wechseln, navigieren, Copy/Paste über Websites hinweg. Stabil genug für mehrstufige Recherche-Workflows.
Spreadsheets: Filter setzen, Formeln anwenden, in großen Tabellen navigieren. Vorher ein Schwachpunkt, jetzt brauchbar.
Webformulare: Mehrstufige Formulare ausfüllen, Daten zwischen Anwendungen übertragen. Der klassische RPA-Use-Case, aber ohne starre Skripte.
Legacy-Tools ohne API: Genau hier wird es spannend. Jede Anwendung mit einer Oberfläche wird automatisierbar, auch wenn sie keine Schnittstelle anbietet.

In OSWorld, dem Standard-Benchmark für Computer Use, zeigt Sonnet 4.6 massive Sprünge. Bei bestimmten Büro- und Screen-Tasks wird von menschennahen Leistungen berichtet.

Was das für die Praxis bedeutet

Computer Use macht aus Claude einen RPA-Konkurrenten, der keine starre Konfiguration braucht. Du beschreibst, was passieren soll, und das Modell findet den Weg.

Konkrete Szenarien:

Rechnungen aus Webportalen herunterladen und nach Datum in Ordnern sortieren
Daten aus einem CRM in eine Tabelle übertragen, filtern und als Report exportieren
Formulare in Legacy-Systemen ausfüllen, die keine API haben
Browser-basierte Workflows: Preise vergleichen, Informationen aus mehreren Quellen zusammentragen

Das ist keine Zukunftsmusik. Die technischen Bausteine sind da:

LLM + Planning: Versteht natürliche Sprache, plant mehrstufige Workflows, korrigiert sich bei Fehlschlägen
Computer Vision: Erkennt Buttons, Text, Icons und Tabellen in Screenshots
Action-Policy: Leitet aus Weltzustand und Ziel konkrete UI-Aktionen ab
Runtime: Führt Maus- und Keyboard-Events auf einem echten oder virtuellen Desktop aus

Sicherheit: ASL-3 und Prompt Injection

Anthropic stuft Sonnet 4.6 unter AI Safety Level 3 ein. Das ist ein neues Sicherheitsniveau, das stärkere interne Schutzmaßnahmen für die Modellgewichte und spezifische Einschränkungen für CBRN-relevante Szenarien umfasst.

Für Computer Use ist besonders relevant:

Prompt Injection

Wenn ein Modell eigenständig im Browser navigiert, wird Prompt Injection zum echten Risiko. Eine bösartige Webseite könnte versuchen, dem Agenten Anweisungen unterzuschieben. Sonnet 4.6 ist explizit dagegen gehärtet, das Modell soll solche eingebetteten Befehle erkennen und ignorieren.

Bessere Refusals

Die Guardrails greifen gezielter. Das bedeutet: weniger unnötige Ablehnungen bei legitimen Anfragen, während sicherheitskritische Themen weiter blockiert bleiben. Wer mit früheren Claude-Versionen gearbeitet hat, kennt das Problem übervorsichtiger Ablehnungen. Hier hat Anthropic nachgebessert.

Was ASL-3 signalisiert

Die Einstufung ist auch ein Signal: Die Modelle werden leistungsfähig genug, dass Anthropic selbst eine höhere Risikoklasse für angemessen hält. Die Maßnahmen sind bewusst eng fokussiert und sollen normale Business-Use-Cases nicht stören, aber sie zeigen, wohin die Reise geht.

Coding und Agenten-Workflows

Neben Computer Use verbessert sich Sonnet 4.6 auch als Coding-Assistent:

Weniger Laziness: Das Modell zieht Aufgaben konsequenter durch, statt nach halber Arbeit aufzuhören
Bessere Wiederverwendung: Vorhandene Logik wird erkannt und genutzt, statt alles neu zu schreiben
Stabilere Agenten-Ketten: Längere autonome Workflows laufen zuverlässiger durch

In Agenten-Benchmarks wie der Vending-Bench Arena und diversen Finanz- und Planungstests zeigt das Modell starke Resultate. Der Fokus auf wirtschaftlich relevante Autonomie ist klar erkennbar.

Einordnung

Sonnet 4.6 ist kein revolutionäres neues Modell. Es ist ein gezieltes Update, das an den richtigen Stellen nachschärft. Das 1M-Token-Fenster und die Kontext-Kompaktierung sind nette Verbesserungen. Die Coding-Performance ist solide.

Aber Computer Use ist die Geschichte. Wenn ein Sprachmodell zuverlässig genug wird, um echte Desktop-Anwendungen zu bedienen, verschiebt sich die Automatisierungsgrenze fundamental. Nicht mehr nur Code und APIs, sondern alles mit einer Oberfläche wird zum potenziellen Automatisierungsziel.

Die Einschränkungen sind real: Captchas, fragile UIs und hochkritische Aktionen ohne Review bleiben problematisch. Und die Sicherheitsfragen rund um Browser-Agenten sind nicht trivial. Aber die Richtung ist klar, und Sonnet 4.6 ist der bisher überzeugendste Schritt dorthin.