Claude Sonnet 4.5

Claude Sonnet 4.5 ist seit September 2025 im Einsatz und auf Coding, Agenten-Workflows und Computer Use spezialisiert. Das Modell arbeitet mit Extended Thinking für tieferes Reasoning bei komplexen Aufgaben, einem 200.000-Token-Kontextfenster mit automatischer Verdichtung sowie einem übergreifenden Gedächtnis über mehrere Konversationen. Anthropic hat das Retirement für den 29. September 2026 angekündigt.

Anthropic Version 4.5 Kommerzielle Nutzung erlaubt Dense 200 K Context 01/2025 $3 / $15 per 1M

  • Proprietär
  • Server
  • API
  • Text
  • Vision
  • Interactive

Sovereign Risk: MEDIUM Anthropic ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.44
First Request
MCP
0.95
Protocol Latency
Synthesis
9.72
Response Generation
Total
78.64
Sum of All Phases
Token
10230
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark ist und die Calls valide sind, aber die erkannte Halluzination unter Fehlerbedingungen das Vertrauen in eine produktive Tool-Pipeline begrenzt.

Tool-Execution-Profil

Claude Sonnet 4.5 zeigt ein belastbares Tool-Use-Fundament. Mit P1 90 produziert es valide MCP-Calls und brauchte keinen Retry, also weder Formatkorrektur noch erneute Steuerung. Das ist für produktive Orchestrierung ein gutes Signal. Beim Test Web Search & Tool Selection, der prüft, ob ohne Hinweis das passende Werkzeug gewählt wird, erkennt das Modell klar, dass web_search statt fetch nötig ist. Das spricht gegen bloßes Musterfolgen und für echte Werkzeugwahl. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Vorwissen und den anschließenden Fetch misst, bleibt es brauchbar, aber nicht deterministisch genug für enge Pipelines. Insgesamt ist das Modell in der Werkzeugschicht verlässlich, aber nicht fehlerfrei in der letzten Präzisionsmeile.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Hier liegt die eigentliche Schwäche. P2 50.83 ist für ein Server-Modell nur ausreichend. Besonders auffällig sind die Einbrüche bei Web Search & Tool Selection, Tool Failure Handling (404) und vor allem Multilingual Search & Synthesis. Das Modell beschafft Informationen, verdichtet sie aber nicht durchgehend präzise, priorisiert nicht immer sauber und hält den Antwortkern nicht stabil genug.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen stammen, bleibt das Modell im beschafften Material. P2 60 ist nicht stark, aber der Vertrauensbefund ist positiv: Content-Verification-State A, keine Halluzination. Das ist wichtig. Gleichzeitig gilt: Die insgesamt erkannte Halluzination ist ein Sicherheitsrisiko, nicht nur ein Qualitätsmangel. Wenn ein Modell erfundene Inhalte als Tool-Ergebnis ausgibt, beschädigt es die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Hier liegt der produktionskritische Punkt. Im 404-Test, der transparente Reaktion auf einen gescheiterten Tool-Call prüft, halluziniert das Modell trotz Fehlers Seiteninhalt. P2 35 ist dafür nur der Begleitwert. Der eigentliche Befund lautet: Es ersetzt fehlende Evidenz nicht konsequent durch klare Fehlerkommunikation. Für Produktion ist das ohne Ausnahme kritisch. Ein Tool-Fehler muss als Tool-Fehler sichtbar bleiben.

Betriebsprofil

Call 1: 2.24s. MCP-Latenz: 0.74s. Call 2: 8.38s. Total: 68.11s.
Kosten pro Run: $0.064233.
Latenz: eher langsam im Gesamtlauf. Kosten: moderat bis gehoben. Leistung: gute Tool-Ausführung, aber zu schwache Synthesetreue für den Preis.

Fazit & Empfehlung

Geeignet für MCP-Pipelines mit starker externer Validierung, klaren Guardrails und nachgelagerter Ergebnisprüfung, besonders wenn Werkzeugwahl und mehrstufige Ausführung wichtiger sind als knappe, belastbare Verdichtung. Nicht geeignet für Compliance-, Retrieval- oder Incident-Workflows, in denen ein Tool-Fehler strikt transparent bleiben muss und erfundener Ersatzinhalt unzulässig ist. Für autonome Agenten nur dann vertretbar, wenn Fehlerpfade hart abgefangen und Antworten gegen Tool-Rohdaten verifiziert werden.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.