Claude Opus 4.6

Anthropics Frontier-Modell für komplexe Agenten-Aufgaben: Claude Opus 4.6 verarbeitet Text- und Bildeingaben bei einem Standard-Kontextfenster von 200.000 Tokens, das sich für lange Workflows auf eine Million Tokens erweitern lässt. Das Modell unterstützt Tool-Aufrufe und Extended Thinking für maximale Reasoning-Tiefe.

Anthropic Version 4.6 Kommerzielle Nutzung erlaubt Dense 1000 K Context 01/2025 $5 / $25 per 1M

  • Proprietär
  • Frontier
  • API
  • Text
  • Vision
  • Agentic Orchestrator
  • Long Context
  • Interactive

Sovereign Risk: MEDIUM Anthropic ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
17.77
First Request
MCP
0.81
Protocol Latency
Synthesis
22.56
Response Generation
Total
246.81
Sum of All Phases
Token
20782
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Agentic Orchestrator · Long Context

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark und protokolltreu ist, aber die erkannte Halluzination im Honeypot das Vertrauen in faktenkritischen MCP-Betrieb begrenzt.

Tool-Execution-Profil

Claude Opus 4.6 arbeitet auf der Ausführungsseite klar über Produktionsniveau. Tool-Calls waren valide, Retry war nicht nötig, und der P1-Wert zeigt ein belastbares MCP-Verhalten. Entscheidend ist die Werkzeugwahl: Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis zwischen Suche und direktem Fetch unterscheiden lässt, wählte das Modell das richtige Tool durchgängig. Das spricht für echte Orchestrierungsintelligenz und nicht nur für starres Fetch-First-Verhalten. Beim URL-Construction-Test, der korrekte Ziel-URLs aus Eigenwissen verlangt, war die Leistung brauchbar, aber nicht vollständig deterministisch. Das Muster ist damit klar: starke Entscheidung, welches Werkzeug gebraucht wird, etwas weniger Präzision bei der eigenständigen Zieladressierung. Für dynamische Tool-Pipelines ist das ein gutes Profil.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Solide, aber nicht konsistent genug für High-Trust-Workloads. Starke Verdichtung bei HTTP Fetch & Extract und bei Multilingual Search & Synthesis zeigt, dass das Modell strukturierte Web-Inhalte sauber zusammenziehen kann. Der Gesamtwert auf P2 wird aber durch deutliche Ausreißer gedrückt. Vor allem bei EU License Research und bei Web Search & Tool Selection fiel die inhaltliche Zusammenführung spürbar ab.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier liegt das zentrale Risiko. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, wich das Modell auf nicht verifizierten Inhalt aus. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Wenn ein Modell erfundene oder vorwissensbasierte Aussagen als Ergebnis einer Tool-Kette ausgibt, beschädigt es die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Bei Tool-Fehlern verhält sich das Modell produktionsgerecht. Im 404-Test, der transparentes Fehlermanagement statt erfundenem Ersatzinhalt prüft, kommunizierte es den Ausfall sauber und halluzinierte keinen Seiteninhalt. Das ist für reale MCP-Pipelines ein wichtiger positiver Befund.

Betriebsprofil

14.39s und 16.63s auf den Haupt-Calls, 1.17s MCP-Latenz, 193.11s pro Run gesamt. Das ist langsam.
0.273305 USD pro Run. Das ist teuer.
Gemessen an der Ausführungsstärke vertretbar. Gemessen an der Synthesetreue in faktenkritischen Pfaden anspruchsvoll.

Fazit & Empfehlung

Geeignet für agentische Pipelines mit starker Tool-Orchestrierung, mehrstufiger Web-Recherche, multilingualer Verarbeitung und transparenter Fehlerbehandlung. Nicht geeignet als unkontrollierte Endinstanz in Compliance-, Policy-, Lizenz- oder anderen faktenkritischen Flows, in denen Tool-Ergebnisse strikt belegt bleiben müssen. Deploy nur mit harten Guardrails: Quellenbindung, Antwort auf Tool-Belege beschränken, und nachgelagerte Verifikation für jede normative oder aktuelle Aussage.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.