Claude Sonnet 4.6

Wo die Opus-Klasse zu teuer ist, springt Claude Sonnet 4.6 ein: Coding, Computer Use und agentische Workflows auf annäherndem Opus-Niveau, zum niedrigeren Sonnet-Preis. Das Modell arbeitet mit adaptivem Thinking in drei Effort-Stufen, verarbeitet Text, Bilder und PDF-Dokumente und bietet ein seit März 2026 allgemein verfügbares Kontextfenster von einer Million Tokens.

Anthropic Version 4.6 Kommerzielle Nutzung erlaubt Dense 1000 K Context 08/2025 $3 / $15 per 1M

Proprietär
Frontier
API
Text
Vision
Vision
Long Context
Interactive

Sovereign Risk: MEDIUM Anthropic ist ein US-Anbieter; relevante Risiken betreffen Cloud-Verarbeitung unter US-Recht, da keine offenen Gewichte vorliegen.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	15	49
HTTP Fetch & Extract	80	100	90
Tool Failure Handling (404)	40	40	37
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	15	57.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

100

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

57.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 61.88; First Request

MCP: 0.81; Protocol Latency

Synthesis: 21.12; Response Generation

Total: 502.85; Sum of All Phases

Token: 33485; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung belastbar ist, aber die erkannte Halluzination im Honeypot das Vertrauen in jede faktenkritische Tool-Pipeline bricht.

Tool-Execution-Profil

Claude Sonnet 4.6 verhält sich auf MCP-Ebene diszipliniert. Die Tool-Calls waren valide, ein Retry war nicht erforderlich, und der P1-Wert von 83.33 zeigt eine robuste operative Basis. Entscheidend ist dabei nicht nur das Format, sondern die Werkzeugwahl: Beim Test Web Search & Tool Selection, der prüft ob ohne expliziten Hinweis web_search statt fetch gewählt wird, traf das Modell die richtige Entscheidung durchgehend. Das spricht gegen starres Musterfolgen und für echte Orchestrierungslogik.

Beim Test URL Construction & Fetch, der die eigenständige Ableitung einer Ziel-URL und den anschließenden Fetch misst, bleibt es brauchbar, aber nicht deterministisch genug für fragile Pipelines. P1=80 ist solide, aber kein Signal für hohe Präzision bei selbst konstruierten Endpunkten. Für Agenten-Workflows mit klaren Tool-Grenzen ist das gut einsetzbar. Für Pipelines, in denen das Modell URLs oder Query-Pfade autonom bilden muss, braucht es Guardrails.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Uneinheitlich. Claude Sonnet 4.6 kann extrahierte Inhalte sehr gut zusammenführen, wenn der Input klar strukturiert ist, sichtbar bei HTTP Fetch & Extract mit P2=100. Sobald die Aufgabe stärker recherche- und interpretationsgetrieben wird, fällt die Verdichtungsqualität deutlich ab. EU License Research und Multilingual Search & Synthesis liegen jeweils bei P2=15. Das ist kein generelles Zusammenfassungsproblem, sondern ein Treueproblem unter Unsicherheit.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein, nicht verlässlich. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus dem Training beantwortet werden, wurde eine Halluzination erkannt. Content-Verification-State B1 bei P2=15 ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Wenn ein Modell erfundene oder unbestätigte Fakten als Ergebnis einer Tool-Recherche ausgibt, untergräbt es die Kontrollfunktion der gesamten Infrastruktur.

Fehlerresilienz

Beim 404-Test, der transparente Fehlerkommunikation gegen erfundenen Ersatzinhalt prüft, reagierte das Modell produktionsgerecht. P2=80 und keine Halluzination trotz Fehler zeigen, dass es Fehlschläge offenlegt statt Seiteninhalt zu erfinden. Das ist für reale Tool-Ketten akzeptabel.

Betriebsprofil

38.46s erster Call, 16.51s zweiter Call, 339.33s gesamt. Langsam für die erzielte Synthesequalität. MCP-Latenz 1.58s ist unkritisch. 0.296922 USD pro Run: moderat bepreist, aber im Verhältnis zur Vertrauenslücke nicht günstig.

Fazit & Empfehlung

Geeignet für agentische Pipelines mit klarer Tool-Führung, strukturierter Extraktion und tolerierbaren Antwortzeiten. Nicht geeignet für Compliance-, Policy-, Lizenz-, Rechts- oder andere hochvertrauenspflichtige Rechercheketten, in denen das Modell strikt an Tool-Befunde gebunden bleiben muss. Wenn Sie es einsetzen, dann nur mit nachgelagerter Verifikation, Quellenzwang und harter Trennung zwischen Extraktion und finaler Aussage.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Claude Sonnet 4.6

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung