GPT-5.4 Nano

GPT-5.4 Nano ist OpenAIs preisgünstigste GPT-5.4-Variante für hochvolumige Standardaufgaben wie Klassifikation, Extraktion und Ranking. Mit einem Kontextfenster von 272.000 Tokens und bis zu 128.000 Tokens Ausgabe eignet sich das Modell für Batch-Verarbeitung und Sub-Agent-Routing. Verfügbar ausschliesslich über die OpenAI-API zu niedrigen Kosten.

OpenAI Version 5.4-nano Kommerzielle Nutzung erlaubt Dense 272 K Context 08/2025 $0.2 / $1.25 per 1M

  • Proprietär
  • Nano
  • API
  • Text
  • Vision
  • Instruction-Tuned
  • Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
1.8
First Request
MCP
1.29
Protocol Latency
Synthesis
4.05
Response Generation
Total
42.84
Sum of All Phases
Token
7968
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung oft brauchbar ist, aber ungültige Tool-Calls und erkannte Halluzinationen das Modell für vertrauenskritische MCP-Pipelines begrenzen.

Tool-Execution-Profil

GPT-5.4 Nano erkennt grundsätzlich, wann es suchen statt direkt abrufen muss. Beim Test Web Search & Tool Selection, der die Wahl zwischen web_search und fetch ohne expliziten Hinweis prüft, liegt die Ausführung sehr stark. Das spricht gegen ein rein starres Muster und für brauchbare Werkzeugwahl in offenen Retrieval-Schritten. Auch beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Vorwissen und den anschließenden Fetch misst, arbeitet das Modell solide, aber nicht deterministisch genug für fragile Pipelines mit strikten Pfadannahmen.

Der kritische Punkt ist die Protokolltreue. Tool-Call valide: False bedeutet, dass die Pipeline nicht nur inhaltlich, sondern operativ absichern muss. Das Modell kann also den richtigen Arbeitsmodus erkennen, produziert aber nicht zuverlässig MCP-konforme Aufrufe. Für produktive Tool-Ketten ist das ein Integrationsrisiko, weil nachgelagerte Systeme an Format- oder Parameterfehlern scheitern können. Retry war nicht erforderlich. Das wirkt daher eher wie inkonsistente Ausführung als ein einmaliges Formatproblem.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt brauchbar. Die P2-Leistung ist der schwächste Teil des Profils. Bei HTTP Fetch & Extract, also der strukturierten Verdichtung realer Seiteninhalte, bleibt die Qualität wechselhaft. Auch bei Multilingual Search & Synthesis zeigt sich starke Streuung. Das Modell kann Ergebnisse zusammenziehen, hält Präzision und Vollständigkeit aber nicht stabil genug für Compliance-, Policy- oder entscheidungsnahe Zusammenfassungen.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüfen soll, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, ist das Vertrauenssignal schwach. Zwar wurde dort keine Halluzination markiert, aber P2=20 zeigt, dass das Modell die abgerufenen Inhalte kaum belastbar in eine Antwort überführt. Da global Halluzination erkannt: True gilt, ist das kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Erfundenes als angebliches Tool-Ergebnis untergräbt die gesamte Tool-Infrastruktur.

Fehlerresilienz

Bei Tool Failure Handling (404), also dem Test auf transparentes Verhalten nach fehlgeschlagenem Abruf, reagiert das Modell grundsätzlich akzeptabel. Es halluziniert im ausgewiesenen 404-Fall keinen Seiteninhalt und bleibt damit auf der richtigen Seite der Produktionsgrenze. Die Transparenz ist aber nicht durchgehend stark, wie die Streuung zwischen den beiden 404-Durchläufen zeigt. Für robuste Systeme ist das ausreichend, für autonome Agenten ohne Guardrails nicht.

Betriebsprofil

1.80s erster Modell-Call. 1.29s MCP-Latenz. 4.05s zweiter Call. 42.84s total. Günstig, aber für die erzielte Qualität und Zuverlässigkeit nicht schnell genug im End-to-End-Verlauf.

Fazit & Empfehlung

Geeignet als kostengünstiger Sub-Agent für einfache Suchanstoß-, Routing- und Vorfilter-Aufgaben, bei denen nachgelagerte Validatoren Tool-Calls prüfen und Antworten gegen Quellmaterial abgleichen. Nicht geeignet für direkt vertrauenswürdige Recherche-Synthese, Compliance-Ausgaben oder MCP-Pipelines, in denen das Modell ohne strikte Schema-Prüfung, Source-Grounding und Antwortvalidierung eigenständig Ergebnisse ausliefern soll.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.