Claude Opus 4.6

Anthropics Frontier-Modell für komplexe Agenten-Aufgaben: Claude Opus 4.6 verarbeitet Text- und Bildeingaben bei einem Standard-Kontextfenster von 200.000 Tokens, das sich für lange Workflows auf eine Million Tokens erweitern lässt. Das Modell unterstützt Tool-Aufrufe und Extended Thinking für maximale Reasoning-Tiefe.

Anthropic Version 4.6 Kommerzielle Nutzung erlaubt Dense 1000 K Context 01/2025 $5 / $25 per 1M

Proprietär
Frontier
API
Text
Vision
Agentic Orchestrator
Long Context
Interactive

Sovereign Risk: MEDIUM Anthropic ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	15	49
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	40	40	37
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	35	67.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

67.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 17.77; First Request

MCP: 0.81; Protocol Latency

Synthesis: 22.56; Response Generation

Total: 246.81; Sum of All Phases

Token: 20782; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark und protokolltreu ist, aber die erkannte Halluzination im Honeypot das Vertrauen in faktenkritischen MCP-Betrieb begrenzt.

Tool-Execution-Profil

Claude Opus 4.6 arbeitet auf der Ausführungsseite klar über Produktionsniveau. Tool-Calls waren valide, Retry war nicht nötig, und der P1-Wert zeigt ein belastbares MCP-Verhalten. Entscheidend ist die Werkzeugwahl: Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis zwischen Suche und direktem Fetch unterscheiden lässt, wählte das Modell das richtige Tool durchgängig. Das spricht für echte Orchestrierungsintelligenz und nicht nur für starres Fetch-First-Verhalten. Beim URL-Construction-Test, der korrekte Ziel-URLs aus Eigenwissen verlangt, war die Leistung brauchbar, aber nicht vollständig deterministisch. Das Muster ist damit klar: starke Entscheidung, welches Werkzeug gebraucht wird, etwas weniger Präzision bei der eigenständigen Zieladressierung. Für dynamische Tool-Pipelines ist das ein gutes Profil.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Solide, aber nicht konsistent genug für High-Trust-Workloads. Starke Verdichtung bei HTTP Fetch & Extract und bei Multilingual Search & Synthesis zeigt, dass das Modell strukturierte Web-Inhalte sauber zusammenziehen kann. Der Gesamtwert auf P2 wird aber durch deutliche Ausreißer gedrückt. Vor allem bei EU License Research und bei Web Search & Tool Selection fiel die inhaltliche Zusammenführung spürbar ab.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier liegt das zentrale Risiko. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, wich das Modell auf nicht verifizierten Inhalt aus. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Wenn ein Modell erfundene oder vorwissensbasierte Aussagen als Ergebnis einer Tool-Kette ausgibt, beschädigt es die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Bei Tool-Fehlern verhält sich das Modell produktionsgerecht. Im 404-Test, der transparentes Fehlermanagement statt erfundenem Ersatzinhalt prüft, kommunizierte es den Ausfall sauber und halluzinierte keinen Seiteninhalt. Das ist für reale MCP-Pipelines ein wichtiger positiver Befund.

Betriebsprofil

14.39s und 16.63s auf den Haupt-Calls, 1.17s MCP-Latenz, 193.11s pro Run gesamt. Das ist langsam.
0.273305 USD pro Run. Das ist teuer.
Gemessen an der Ausführungsstärke vertretbar. Gemessen an der Synthesetreue in faktenkritischen Pfaden anspruchsvoll.

Fazit & Empfehlung

Geeignet für agentische Pipelines mit starker Tool-Orchestrierung, mehrstufiger Web-Recherche, multilingualer Verarbeitung und transparenter Fehlerbehandlung. Nicht geeignet als unkontrollierte Endinstanz in Compliance-, Policy-, Lizenz- oder anderen faktenkritischen Flows, in denen Tool-Ergebnisse strikt belegt bleiben müssen. Deploy nur mit harten Guardrails: Quellenbindung, Antwort auf Tool-Belege beschränken, und nachgelagerte Verifikation für jede normative oder aktuelle Aussage.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Claude Opus 4.6

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung