GPT-5.4 Mini

GPT-5.4 Mini ist die kompakte GPT-5.4-Variante für schnelle und kosteneffiziente Alltagsaufgaben. Mit einem Kontextfenster von 272.000 Tokens und multimodaler Eingabe für Text und Bild richtet sich das Modell an Anwendungen mit niedriger Latenz bei solider Ausgabequalität. Ausschliesslich über die OpenAI-API verfügbar.

OpenAI Version 5.4 Kommerzielle Nutzung erlaubt Dense 272 K Context 09/2025 $0.75 / $4.5 per 1M

  • Proprietär
  • Nano
  • API
  • Text
  • Vision
  • Instruction-Tuned
  • Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.38
First Request
MCP
2.52
Protocol Latency
Synthesis
3.25
Response Generation
Total
48.91
Sum of All Phases
Token
10511
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil die Tool-Nutzung oft zielgerichtet ist, aber ein invalider Tool-Call plus erkannte Halluzination das Modell für vertrauenskritische MCP-Pipelines ohne zusätzliche Absicherung disqualifizieren.

Tool-Execution-Profil

GPT-5.4 Mini zeigt echte Werkzeugintelligenz, nicht nur starres Musterverhalten. Beim Test Web Search & Tool Selection, der die Wahl zwischen Suche und direktem Fetch ohne expliziten Hinweis prüft, wählt es das richtige Werkzeug zuverlässig. Auch beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus eigenem Wissen und den anschließenden Fetch misst, arbeitet es grundsätzlich brauchbar, aber nicht deterministisch genug für eng validierte Abläufe. Das Gesamtbild ist daher gemischt: hohe Treffer bei der Werkzeugwahl, aber keine durchgehend protokollsaubere Ausführung. Der Befund „Tool-Call valide: False“ ist hier der operative Kern. Für produktive MCP-Setups heißt das: Tool-Schema strikt validieren, Argumente vor Ausführung prüfen und bei kritischen Aktionen keinen direkten Durchgriff erlauben.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die Verdichtung fällt mit P2 55.83 sichtbar hinter die Tool-Ausführung zurück. Das sieht man an mehreren Aufgaben mit starkem Recherche- oder Extraktionsanteil: EU License Research, das aktuelle Lizenzrestriktionen aus Web-Quellen verlangt, endet trotz korrekter Beschaffung nur in einer schwachen Verdichtung. Gleiches Muster bei Multilingual Search & Synthesis und Web Search & Tool Selection. Wo der Input klar strukturiert ist, wie bei HTTP Fetch & Extract, bleibt die Ausgabe deutlich solider.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research halluziniert es nicht in alte Weltkenntnis hinein, was positiv ist. Gleichzeitig ist global eine Halluzination erkannt worden. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als Ergebnis einer Tool-Pipeline ausgibt, verliert die gesamte Infrastruktur ihre Nachvollziehbarkeit.

Fehlerresilienz

Beim 404-Test, der transparente Reaktion auf einen gescheiterten Tool-Call statt erfundenem Ersatzinhalt misst, verhält sich das Modell akzeptabel. Es halluziniert keinen Seiteninhalt trotz Fehler und kommuniziert den Ausfall ausreichend offen. Das ist produktionsfähig. Es zeigt, dass die Sicherheitsgrenze bei offensichtlichen Tool-Fehlern grundsätzlich vorhanden ist.

Betriebsprofil

Call 1: 2.38s
MCP-Latenz: 2.52s
Call 2: 3.25s
Total: 48.91s
Preis: $0.75/1M Input, $4.5/1M Output
Schnell pro Einzelaufruf, aber langsamer Gesamt-Run. Günstig für API-Betrieb. Preis-Leistung nur dann gut, wenn strikte Guardrails den Zuverlässigkeitsverlust abfangen.

Fazit & Empfehlung

Geeignet für kostensensitive Assistenten, Recherche-Frontends und nichtkritische Tool-Pipelines mit menschlicher Sichtkontrolle oder harter Nachvalidierung der Tool-Outputs. Nicht geeignet für Compliance, Lizenzprüfung, autonomes Retrieval mit direkter Weiterverarbeitung oder andere Workflows, in denen ein einzelner erfundener Synthesesatz operativen Schaden auslösen kann. Wenn Sie es einsetzen, dann als schneller Vorarbeiter mit engen Schranken, nicht als vertrauenswürdige letzte Instanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.