GPT-5.4 Mini

GPT-5.4 Mini ist die kompakte GPT-5.4-Variante für schnelle und kosteneffiziente Alltagsaufgaben. Mit einem Kontextfenster von 272.000 Tokens und multimodaler Eingabe für Text und Bild richtet sich das Modell an Anwendungen mit niedriger Latenz bei solider Ausgabequalität. Ausschliesslich über die OpenAI-API verfügbar.

OpenAI Version 5.4 Kommerzielle Nutzung erlaubt Dense 272 K Context 09/2025 $0.75 / $4.5 per 1M

Proprietär
Nano
API
Text
Vision
Instruction-Tuned
Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	40	80	51
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.38; First Request

MCP: 2.52; Protocol Latency

Synthesis: 3.25; Response Generation

Total: 48.91; Sum of All Phases

Token: 10511; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Nutzung oft zielgerichtet ist, aber ein invalider Tool-Call plus erkannte Halluzination das Modell für vertrauenskritische MCP-Pipelines ohne zusätzliche Absicherung disqualifizieren.

Tool-Execution-Profil

GPT-5.4 Mini zeigt echte Werkzeugintelligenz, nicht nur starres Musterverhalten. Beim Test Web Search & Tool Selection, der die Wahl zwischen Suche und direktem Fetch ohne expliziten Hinweis prüft, wählt es das richtige Werkzeug zuverlässig. Auch beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus eigenem Wissen und den anschließenden Fetch misst, arbeitet es grundsätzlich brauchbar, aber nicht deterministisch genug für eng validierte Abläufe. Das Gesamtbild ist daher gemischt: hohe Treffer bei der Werkzeugwahl, aber keine durchgehend protokollsaubere Ausführung. Der Befund „Tool-Call valide: False“ ist hier der operative Kern. Für produktive MCP-Setups heißt das: Tool-Schema strikt validieren, Argumente vor Ausführung prüfen und bei kritischen Aktionen keinen direkten Durchgriff erlauben.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die Verdichtung fällt mit P2 55.83 sichtbar hinter die Tool-Ausführung zurück. Das sieht man an mehreren Aufgaben mit starkem Recherche- oder Extraktionsanteil: EU License Research, das aktuelle Lizenzrestriktionen aus Web-Quellen verlangt, endet trotz korrekter Beschaffung nur in einer schwachen Verdichtung. Gleiches Muster bei Multilingual Search & Synthesis und Web Search & Tool Selection. Wo der Input klar strukturiert ist, wie bei HTTP Fetch & Extract, bleibt die Ausgabe deutlich solider.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research halluziniert es nicht in alte Weltkenntnis hinein, was positiv ist. Gleichzeitig ist global eine Halluzination erkannt worden. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als Ergebnis einer Tool-Pipeline ausgibt, verliert die gesamte Infrastruktur ihre Nachvollziehbarkeit.

Fehlerresilienz

Beim 404-Test, der transparente Reaktion auf einen gescheiterten Tool-Call statt erfundenem Ersatzinhalt misst, verhält sich das Modell akzeptabel. Es halluziniert keinen Seiteninhalt trotz Fehler und kommuniziert den Ausfall ausreichend offen. Das ist produktionsfähig. Es zeigt, dass die Sicherheitsgrenze bei offensichtlichen Tool-Fehlern grundsätzlich vorhanden ist.

Betriebsprofil

Call 1: 2.38s
MCP-Latenz: 2.52s
Call 2: 3.25s
Total: 48.91s
Preis: $0.75/1M Input, $4.5/1M Output
Schnell pro Einzelaufruf, aber langsamer Gesamt-Run. Günstig für API-Betrieb. Preis-Leistung nur dann gut, wenn strikte Guardrails den Zuverlässigkeitsverlust abfangen.

Fazit & Empfehlung

Geeignet für kostensensitive Assistenten, Recherche-Frontends und nichtkritische Tool-Pipelines mit menschlicher Sichtkontrolle oder harter Nachvalidierung der Tool-Outputs. Nicht geeignet für Compliance, Lizenzprüfung, autonomes Retrieval mit direkter Weiterverarbeitung oder andere Workflows, in denen ein einzelner erfundener Synthesesatz operativen Schaden auslösen kann. Wenn Sie es einsetzen, dann als schneller Vorarbeiter mit engen Schranken, nicht als vertrauenswürdige letzte Instanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

GPT-5.4 Mini

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung