Claude Haiku 4.5

Auf Geschwindigkeit getrimmt: Claude Haiku 4.5 ist Anthropics kompaktes Modell für Echtzeit-Interaktionen und API-Pipelines mit hohem Durchsatz. Es verarbeitet Text- und Bildeingaben bei einem Kontextfenster von 200.000 Tokens, unterstützt Tool-Aufrufe und liefert Antworten zu einem Preis von 1 US-Dollar pro Million Input- und 5 US-Dollar pro Million Output-Tokens. Anthropic hat das Retirement für den 15. Oktober 2026 angekündigt.

Anthropic Version 4.5 Kommerzielle Nutzung erlaubt Dense 200 K Context 01/2025 $1 / $5 per 1M

  • Proprietär
  • Desktop
  • API
  • Text
  • Vision
  • Instruction-Tuned
  • Real-Time

Sovereign Risk: MEDIUM Anthropic ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
5.38
First Request
MCP
0.83
Protocol Latency
Synthesis
3.31
Response Generation
Total
57.15
Sum of All Phases
Token
12246
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung belastbar ist, die Synthesetreue aber nicht stabil genug für faktenkritische Pipelines. Der kombinierte Befund ist nur moderat, obwohl die Tool-Calls valide waren.

Tool-Execution-Profil

Claude Haiku 4.5 verhält sich auf der Ausführungsebene brauchbar. Mit P1 86.67 produziert es valide MCP-konforme Tool-Calls und brauchte keinen Retry, was gegen ein Formatproblem spricht. Entscheidend ist aber die Werkzeugwahl: Beim Test Web Search & Tool Selection, der ohne Hinweis die richtige Wahl zwischen Suche und direktem Abruf prüft, erreicht es 80. Das zeigt echte, aber nicht durchgehend sichere Tool-Intelligenz. Es erkennt den Bedarf für web_search oft, wirkt dabei jedoch nicht deterministisch.

Beim Test URL Construction & Fetch, der die Ableitung einer Ziel-URL aus Eigenwissen und den anschließenden Abruf misst, erreicht es ebenfalls 80. Das spricht für solide operative Kompetenz, aber nicht für präzise Steuerung unter schwachen Prompts. In einer MCP-Pipeline kann man ihm Tools übergeben. Man sollte die Tool-Auswahl jedoch durch Systemregeln, Tool-Beschreibungen und enge Erfolgskriterien absichern.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Hier liegt die eigentliche Schwäche. P2 52.50 ist für produktive Ergebnisnutzung zu niedrig. Das sieht man konsistent in EU License Research, HTTP Fetch & Extract, Web Search & Tool Selection und Multilingual Search & Synthesis, wo die Ausführung gelingt, die Verdichtung aber auf 35 bis 40 fällt. Das Modell holt Informationen, komprimiert sie jedoch nicht zuverlässig in eine belastbare, präzise Antwort.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, blieb es im verifizierten Inhaltsraum. P2 40 ist schwach, aber Halluzination wurde dort nicht erkannt. Gleichzeitig ist der globale Halluzinations-Flag ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, beschädigt es das Vertrauen in die gesamte Tool-Infrastruktur.

Fehlerresilienz

Beim Test Tool Failure Handling (404), der transparentes Verhalten bei einem fehlschlagenden Abruf prüft, reagiert Claude Haiku 4.5 akzeptabel. P2 80 und keine Halluzination trotz 404 bedeuten: Es ersetzt fehlenden Seiteninhalt nicht durch Erfindungen. Das ist produktionsreif.

Betriebsprofil

Call 1 5.43s, MCP-Latenz 1.35s, Call 2 3.35s, Total 60.75s. Operativ schnell auf Einzelaufrufebene, aber der Gesamtrun ist nicht kurz. Kosten pro Run: 0.034324 USD. Günstig bis moderat, gemessen an der nur mittleren Syntheseleistung.

Fazit & Empfehlung

Geeignet für assistive MCP-Pipelines mit klarer Tool-Führung, begrenzter Antwortverantwortung und nachgelagerter Validierung, etwa Recherche-Vorstufen, Link-Sammlung, URL-Abruf und robuste Fehlerbehandlung. Nicht geeignet für Compliance-, Policy-, Extract-and-Summarize- oder multilingual verdichtende Workflows, in denen die Antwort selbst als verlässliches Endprodukt dient. Wenn Sie es einsetzen, dann als schneller Tool-Operator, nicht als letzte Syntheseinstanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.