GPT-5.4

GPT-5.4

GPT-5.4 ist die grössere Variante aus OpenAIs 5.4-Generation für anspruchsvolle Workloads mit höherer Antwortqualität als die Mini-Versionen. Das Modell arbeitet mit einem Kontextfenster von 272.000 Tokens, verarbeitet Text- und Bildeingaben und ist ausschliesslich über die OpenAI-API verfügbar. Proprietär und auf produktive, komplexe Aufgaben ausgelegt.

OpenAI Version 5.4 Kommerzielle Nutzung erlaubt Dense 272 K Context 08/2025 $2.5 / $15 per 1M

Proprietär
Frontier
API
Text
Vision
Instruction-Tuned
Real-Time

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	35	20	26
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	40	60	44
Web Search & Tool Selection	35	40	37.3
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	70	85

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

37.3

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 4.18; First Request

MCP: 0.39; Protocol Latency

Synthesis: 5.19; Response Generation

Total: 58.59; Sum of All Phases

Token: 10851; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy: GPT-5.4 zeigt brauchbare Tool-Nutzung ohne erkannte Halluzination, aber der invalide Tool-Call und der nur moderate Gesamtertrag machen es für produktive MCP-Pipelines nur unter enger Guardrail-Führung vertretbar.

Tool-Execution-Profil

Die Tool-Ausführung ist uneinheitlich. Positiv ist der HTTP Fetch & Extract-Test, der präzise strukturierte Fakten aus Fetch-Content zieht, sowie der URL-Construction-Test, bei dem das Modell die Ziel-URL meist korrekt ableitet und den Fetch solide ausführt. Negativ fällt die Werkzeugwahl aus: Im Web Search & Tool Selection-Test erkennt es ohne expliziten Hinweis oft nicht zuverlässig, dass erst eine Suche und nicht direkt ein Fetch nötig ist. Das spricht nicht für belastbare Tool-Intelligenz, sondern eher für ein Muster, möglichst schnell auf bekannte URL- oder Fetch-Pfade zu springen. Für dynamische Pipelines ist das riskant, weil der erste Schritt oft die eigentliche Entscheidung ist. Dass der Tool-Call insgesamt als nicht valide gewertet wurde, verschärft diesen Befund. Immerhin war kein Retry nötig, also eher ein Auswahl- oder Protokollsauberkeitsproblem als ein kompletter Verständnisabbruch.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur begrenzt zuverlässig. Die Synthesis bleibt insgesamt brauchbar, aber nicht präzise genug für Workflows, in denen mehrere Tool-Antworten zu einer belastbaren Entscheidungslage zusammengeführt werden müssen. Die Spannweite der Assets ist dafür zu groß: sehr stark bei Multilingual Search & Synthesis, deutlich schwach bei EU License Research.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal gemischt. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, ist keine Halluzination erkannt worden. Das ist wichtig. Der sehr niedrige P2-Wert zeigt aber trotzdem, dass das Modell die Aufgabe nicht verlässlich in toolgebundene, entscheidungsfeste Aussagen überführt. Für Compliance-nahe Recherchen reicht das nicht.

Fehlerresilienz

Bei Tool-Fehlern verhält sich GPT-5.4 akzeptabel. Im 404-Test, der transparente Fehlerkommunikation gegen erfundenen Seiteninhalt prüft, halluziniert es keinen Ersatzinhalt. Das ist produktionsrelevant positiv. Die Fehlerbehandlung ist damit verwendbar, auch wenn die Kommunikation noch klarer und operativer sein dürfte.

Betriebsprofil

Total 58.59s. Call 1: 4.18s. MCP-Latenz: 0.39s. Call 2: 5.19s. Für die gezeigte Leistung langsam. Preis: $2.5/1M Input, $15.0/1M Output. Für ein Frontier-Modell nicht extrem, im Verhältnis zur Tool-Zuverlässigkeit aber teuer.

Fazit & Empfehlung

Geeignet für assistive Recherche-Pipelines mit menschlicher Abnahme, für multilingualen Web-Kontext und für Fetch-lastige Abläufe, in denen die Ziel-URL oft schon bekannt oder gut ableitbar ist. Nicht geeignet für autonome MCP-Orchestrierung, Compliance-Recherche, dynamische Tool-Auswahl und alle Pipelines, in denen der erste Tool-Schritt deterministisch richtig sein muss. Wenn Sie es einsetzen, dann mit hartem Tool-Routing, Call-Validierung und einer Schicht, die Synthesis gegen Rohquellen zurückprüft.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung