GPT-5.4 Nano · LLM Model Review

Mit einem Gesamtscore von 70.79% zeigt GPT-5.4 Nano sehr klar, was es sein will: ein kommerzielles Cloud-Modell von OpenAI für schnelle, billige, direkte Erledigung statt für intellektuelle Selbstdarstellung. Die Kombination aus General, Instruct und Long-Context passt erstaunlich gut: Es antwortet fokussiert, bleibt bei großen Kontextfenstern prinzipiell einsetzbar und erreicht als Generalist in der Nano-Klasse ein Niveau, das man vor wenigen Modellgenerationen noch kaum für diese Preisklasse bekommen hätte. Der Speed-Profile-Badge “Real-Time Code Reviewer” ist keine Marketingtapete, sondern trifft den Charakter ziemlich genau. Sovereign Risk: MEDIUM — OpenAI unterliegt als US-Unternehmen dem CLOUD Act; die Nutzung erfolgt über eine US-basierte Cloud mit 30 Tagen Datenspeicherung.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	82.04 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen.

Die erste gute Nachricht ist unspektakulär und deshalb wichtig: keine Timeouts in 43 Tests. Für ein proprietäres Cloud-Modell ist das kein Bonus, sondern Mindestanforderung. GPT-5.4 Nano erfüllt sie. Wer dieses Modell in produktiven Pipelines oder als Sub-Agent einsetzt, muss also nicht ständig mit stillen API-Aussetzern rechnen.

Die zweite Nachricht ist weniger freundlich. Eine P95-Antwortzeit von 82.04 Sekunden bedeutet: In fünf Prozent der Fälle wartet der Nutzer deutlich über eine Minute. Das ist für Batch-Verarbeitung noch verkraftbar, für interaktive Arbeit aber ein echter Störfaktor. Der Durchschnitt wirkt mit 6.03 Sekunden pro Aufgabe flott, der Tail erzählt die ehrlichere Geschichte. GPT-5.4 Nano sprintet oft, stolpert aber gelegentlich so lange, dass man es merkt.

Architektur, Einordnung, Erwartungsmaßstab

Die redaktionelle Einstufung als Generalist, Nano, Dense ist hier mehr als Etikett. Sie bestimmt den fairen Maßstab. GPT-5.4 Nano ist kein Denkmodell mit eingebautem langen inneren Monolog, kein Coding-Spezialist und auch kein großes Frontier-Schlachtschiff. Es ist ein kleines, dichtes Sprachmodell, das über die OpenAI-API als reines Cloud-Angebot ausgeliefert wird und laut Produktbeschreibung auf Klassifikation, Extraktion, Ranking und Hilfsroutinen zielt.

Genau deshalb sollte man seine Leistung nicht daran messen, ob es gegen große Reasoning-Modelle in philosophischer Tiefenbohrung gewinnt. Die relevante Frage lautet: Wie viel Kompetenz bringt dieses Nano-Modell in alltagsnahen Aufgaben auf den Tisch, wie sauber folgt es Anweisungen, und wie viel kostet diese Leistung? In diesem Rahmen fällt das Urteil ordentlich aus. Nicht glorreich, aber bemerkenswert erwachsen.

Der Long-Context-Tag ist zudem kein Schmuck am Revers. 400K Kontextfenster und 128K maximale Ausgabe sind auf dem Papier üppig. Der Benchmark reizt das nicht vollständig aus, aber die Einordnung bleibt relevant: GPT-5.4 Nano ist konzeptionell für große Aktenstapel, lange Spezifikationen und Routing-Aufgaben gebaut. Nicht unbedingt, um daraus die klügste Antwort zu destillieren, sondern um überhaupt souverän im Material zu bleiben.

Performance, Tempo und Preis

Mit 123.62 Tokens pro Sekunde generiert GPT-5.4 Nano sehr schnell. Diese Zahl ist bei einem Cloud-Modell keine Hardware-Anekdote, sondern vor allem ein Produktmerkmal des Hersteller-Clusters. Wirklich interessant wird sie erst zusammen mit dem Preis: 0.2 Dollar pro Million Input-Tokens und 1.25 Dollar pro Million Output-Tokens, Benchmark-Kosten 0.0642 Dollar. Das ist aggressiv kalkuliert und macht das Modell ökonomisch attraktiv, gerade für hohe Volumina.

Der Badge “Real-Time Code Reviewer” sagt dabei etwas Nützliches über den typischen Einsatz: nicht das Modell für epische Essays oder lange Denkpfade, sondern für schnelle, prüfende, strukturierende Aufgaben mit technischem Einschlag. Also Pull-Request-Kommentare, erste Schwachstellen-Sichtung, Klassifikation, Extraktion, kurze Umbauten. Genau dort zahlt sich das Verhältnis aus Tempo und Kosten aus.

Auch die Token-Effizienz passt ins Bild. GPT-5.4 Nano verhält sich token-ökonomisch — kein Modul übersteigt den erwarteten Verbosity-Rahmen. Das ist bei API-Nutzung mehr als Stilfrage. Weniger überflüssiger Text heißt niedrigere Kosten bei gleicher Aufgabe und meist auch weniger Ballast für nachgelagerte Agenten oder Parser. Besonders auffällig ist, dass selbst im Code- und Dokumentationsbereich kein ausufernder Redefluss zu sehen ist. Das Modell schreibt nicht knapp, weil es nichts weiß. Es schreibt knapp, weil es auf Befehl arbeitet.

Code Quality: schnell, breit, aber nicht immer mit chirurgischer Präzision

Die Code-Quality-Wertung von 81.08% ist eine echte Stärke. Für ein Nano-Modell ist das keine Nebensache, sondern der Hauptbeweis, dass hier mehr als nur API-Billigware am Werk ist. In einem Security-Audit erkannte GPT-5.4 Nano 26 Schwachstellen, also sogar mehr Einzelpunkte als der Goldstandard. Das Problem lag nicht in der Trefferzahl, sondern in der Form der Analyse: zu viele Redundanzen, zu wenig Verdichtung, zu wenig narrative Risiko-Synthese.

Genau hier zeigt sich der Charakter des Modells. Es sieht viel, benennt viel, klassifiziert wesentliche Risiken korrekt, aber es baut aus den Funden nicht automatisch das übergeordnete Bedrohungsbild. Der Judge monierte zu Recht das Fehlen einer Angriffskette, also der Erklärung, wie sich Einzelfehler praktisch kombinieren lassen. Das ist der Unterschied zwischen Checkliste und Sicherheitsverständnis. GPT-5.4 Nano liefert eher das erste als das zweite.

Dabei sind die technischen Treffer keineswegs banal. Kritische SQL-Injections, Path Traversal, unsichere Admin-Logik, IDOR, schwache Token-Generierung und Type-Juggling wurden korrekt erfasst. Schwächer war die Ausarbeitung: konkrete Exploit-Beispiele fehlten oft, harte Datenbank-Härtung wurde übersehen, und verwandte Probleme wurden teilweise mehrfach statt einmal sauber zusammengefasst. Das Modell arbeitet wie ein fleißiger Junior-Reviewer mit gutem Blick und noch nicht ganz entwickeltem Instinkt für Priorisierung.

Für den Praxiseinsatz ist das trotzdem nützlich. Wer schnelle Erstanalysen, Tabellen und priorisierte Fundlisten braucht, bekommt viel verwertbares Material. Wer allerdings erwartet, dass das Modell daraus von selbst einen belastbaren Security-Case baut, muss nachschärfen. GPT-5.4 Nano findet die Splitter. Das Muster der Explosion erkennt es nicht immer mit derselben Schärfe.

CLI und technische Direktheit: brauchbar, aber nicht elitär

Im CLI-Benchmark mit 70.0% wird das Bild nüchterner. Das ist kein Totalausfall, aber eben auch kein Modell, das man blind für heikle Shell-Kommandos losschickt. Die Instruct-Natur hilft hier bei direkter Befehlsausführung und knappen Antworten, doch das Niveau bleibt eher funktional als elegant.

Für einfache Kommandozeilen-Aufgaben reicht das. Bei mehrstufigen DevOps-Szenarien, in denen exakte Flags, sichere Defaults und systemische Nebenwirkungen zählen, sollte man die Ausgabe kontrollieren. Das passt auch zum Badge: Code-Reviewer, nicht DevOps-Dirigent. GPT-5.4 Nano kommentiert schnell, aber es kommandiert nicht mit der Ruhe eines Modells, das diesen Bereich als Kernkompetenz gelernt hat.

Reasoning und Logik: korrekt genug, aber sichtbar unwillig bei Metakognition

Die Logical-Reasoning-Wertung von 68.48% ist für ein Nano-Allroundmodell respektabel, aber sie kommt mit einer klaren Einschränkung. GPT-5.4 Nano löst Logikaufgaben oft funktional korrekt, doch es mag es nicht, wenn man es zwingt, seinen Denkweg in ein explizites Format zu pressen. In einem protokollierten Rätseltest lieferte es eine mathematisch brauchbare Lösung, verweigerte aber ausdrücklich die geforderten <thought>-Tags und reduzierte die Begründung auf eine knappe Zusammenfassung.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 68.5%, was dem Niveau anderer Modelle dieser Klasse entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.

Das ist nicht bloß ein akademischer Nebeneffekt. In realen Systemen, in denen Modelle bestimmte XML-, JSON- oder Workflow-Formate sauber einhalten müssen, ist solche Verweigerung ein echtes Betriebsproblem. Der Inhalt kann stimmen, der Job ist trotzdem nicht erledigt. GPT-5.4 Nano zeigt hier eine typische OpenAI-Tugend und Schwäche zugleich: Es schützt interne Denkpfade konsequent, selbst wenn die Aufgabe formal etwas anderes verlangt.

Hinzu kommt ein dokumentierter Sprachfehler im Metakognitions-Modul. In einer Aufgabe im Reasoning-Bereich ignorierte das Modell die explizite Sprachanweisung und antwortete auf Englisch, obwohl Deutsch verlangt war. Das System verhängte dafür einen automatischen Constraint-Abzug. Die inhaltliche Qualität der Antwort ist in so einem Fall zweitrangig. Wer feste Zielsprachen in Workflows braucht, kann sich auf gute Absichten nicht verlassen.

In Summe ist das Urteil klar: Für klassische Logikaufgaben reicht die Denkleistung oft aus. Für streng formatierte Reasoning-Pipelines mit expliziter Offenlegung des Denkwegs ist GPT-5.4 Nano das falsche Werkzeug. Es denkt lieber intern und gehorcht dabei nicht immer bis zum letzten Tag.

Documentation Quality: ordentlich, aber nicht luxuriös

Mit 69.72% in der Dokumentationsqualität liegt GPT-5.4 Nano in einem Bereich, den man als brauchbar bis gut bezeichnen kann. Das Modell kann strukturieren, erklären, zusammenfassen und bleibt dabei innerhalb vernünftiger Textmengen. Genau das erwartet man von einem instruct-orientierten Generalisten.

Was ihm fehlt, ist die letzte Schicht editorischer Sorgfalt. Größere Modelle schreiben technische Dokumentation oft so, dass sie bereits nach erster Auslieferung intern zirkulieren könnte. GPT-5.4 Nano schreibt eher Version 0.8: klar genug, nützlich genug, aber noch nicht die Fassung, bei der niemand mehr den Rotstift zieht. Für interne Dokus, SOP-Entwürfe oder API-Zusammenfassungen ist das vollkommen in Ordnung. Für publikationsreife, präzise abgestimmte Spezifikationen sollte man nacharbeiten.

Content Transformation: produktiv, aber mit stumpferen Kanten als die Besten

Im Bereich Content Transformation & Adaption erreicht GPT-5.4 Nano 73.3% und zeigt damit eine durchaus angenehme Vielseitigkeit. Besonders aufschlussreich ist das Videoskript-Protokoll. Das Modell analysierte fehlende Elemente korrekt, baute ein vollständiges Skript mit Hooks, Produktionshinweisen und CTA und blieb sauber auf Deutsch. Das Ergebnis war laut Judge funktional komplett und produktionsreif.

Die Schwäche lag im Feinschliff. Die Analyse blieb komprimiert statt wirklich begründet, Screen-Annotations waren eher generisch als konkret, der emotionale Zug im Hook war schwächer als im Referenzstandard, und das eingebaute Easter Egg verriet sich selbst. Das ist ein schöner kleiner Befund über den Charakter des Modells: Es kann Formate erfüllen, aber es hat weniger Gespür für die raffinierte zweite Ebene, die guten Content von memorablem Content trennt.

Für Unternehmen ist das trotzdem wertvoll. Aus Blogposts werden brauchbare Skripte, aus Rohmaterial verwertbare Fassungen, aus unhandlichen Vorlagen geordnete Endprodukte. Man sollte nur nicht erwarten, dass GPT-5.4 Nano kreative Dramaturgie aus dem Ärmel schüttelt. Es arrangiert ordentlich. Es inszeniert nicht brillant.

UX Writing: funktional, ohne die große Eleganz

Mit 65.69% in UX Writing landet GPT-5.4 Nano dort, wo viele technisch geprägte Generalisten landen: brauchbar, aber nicht fein. Es kann knappe Nutzertexte formulieren, Anweisungen umschreiben und Tonalitäten anpassen. Was fehlt, ist die feine Balance aus Kürze, Präzision, psychologischer Entlastung und markenkonformer Stimme.

Das ist kein Desaster, nur eine saubere Grenze. Wer Microcopy für Formulare, Buttons, Fehlermeldungen oder Onboarding-Strecken braucht, kann GPT-5.4 Nano als ersten Entwurfslieferanten einsetzen. Wer Texte braucht, die in drei Wörtern Reibung abbauen und dabei noch nach Produktteam statt nach Maschine klingen, sollte menschlich redigieren. Bei UX-Sprache entscheidet oft nicht die Grammatik, sondern die Nuance. Und genau dort wird dieses Modell etwas grobkörnig.

Cultural Intelligence: kompetent, aber nicht ganz sauber kalibriert

Die 66.64% in Cultural Intelligence sind ordentlich, aber mit einer wichtigen Schramme. In einem deutschsprachigen Job-Ad-Rewrite entfernte GPT-5.4 Nano aggressive Formulierungen sauber, blieb vollständig auf Deutsch und hielt sich an die Ausgabevorgaben. Es übersah jedoch den Begriff „Manpower“ und ersetzte ihn nicht durch eine inklusivere Variante wie „Fachkraft“. Genau das ist kein kosmetischer Patzer, sondern ein materieller Qualitätsverlust in einer Aufgabe, deren Kern aus sprachlicher Sensibilität besteht.

Bemerkenswert ist dabei, dass das Modell grundsätzlich die Richtung versteht. Es neutralisiert toxische Muster, vermeidet platte „Ninja/Rockstar“-Klischees und produziert kulturell anschlussfähige Sprache. Aber im entscheidenden Detail fehlt manchmal die letzte Wachsamkeit. Es weiß, was gemeint ist. Es hört nicht immer jedes Nebengeräusch.

Für internationale oder inklusive Kommunikation ist das ein Warnsignal mittlerer Stärke. GPT-5.4 Nano ist nicht blind für kulturelle Feinheiten, aber auch nicht zuverlässig genug, um ohne Endkontrolle auf heikle Formulierungen losgelassen zu werden.

Security und Halluzinationsprofil

Aus den Security-Protokollen ergibt sich ein differenziertes Bild. GPT-5.4 Nano erkennt viele konkrete Risiken und klassifiziert grobe Schweregrade meist passend. Das macht es als Assistenz für Review, Triage und Erstbewertung nützlich. Die Schwäche liegt nicht in fantastischen Erfindungen, sondern in unvollständiger Synthese. Das Modell halluziniert hier weniger, als dass es Zusammenhänge untererzählt. Das ist die deutlich angenehmere Sorte Fehler.

Gerade bei sicherheitsrelevanten Aufgaben ist das ein Vorteil. Ein Modell, das lieber etwas nüchtern bleibt als sich mit frei erfundenen Angriffspfaden zu blamieren, ist im Alltag oft das kleinere Risiko. Man muss seine Listen verdichten, aber man muss seltener Phantome austreiben.

Datenschutz und Datenhoheit

Für europäische Unternehmen ist die Lage klar und nicht ganz bequem. GPT-5.4 Nano läuft ausschließlich über die OpenAI-API, also als kommerzielles Cloud-Modell unter US-Recht. Das berechnete Sovereign Risk liegt bei MEDIUM. Der Grund ist konkret: OpenAI ist ein US-Unternehmen, unterliegt dem CLOUD Act, und Daten werden laut Provider-Card in den USA verarbeitet. Das bedeutet auch dann ein Zugriffsrisiko durch US-Behörden unter bestimmten gesetzlichen Voraussetzungen, wenn vertragliche Schutzmechanismen existieren.

Positiv ist, dass GDPR DPA verfügbar ist. Für Unternehmen, die DSGVO-konform arbeiten müssen, ist das kein Luxus, sondern Eintrittskarte. Ebenfalls bekannt ist eine Datenspeicherung von 30 Tagen. Das ist transparent, aber nicht folgenlos. Wer mit sensiblen Kundendaten, Gesundheitsdaten oder vertraulichen Entwicklungsunterlagen arbeitet, muss diese Frist und die US-Jurisdiktion sauber in seine Compliance-Bewertung einbauen.

Das Weights-Provenienz-Risiko liegt ebenfalls bei MEDIUM. Praktisch relevant ist hier weniger die Herkunft offener Gewichte als die schlichte Tatsache, dass es keine offenen Gewichte gibt und damit auch keine eigene Hosting-Kontrolle. Man nutzt OpenAI zu OpenAI-Bedingungen. Für viele Teams ist das akzeptabel. Für manche Rechtsabteilungen ist es bereits die Antwort.

Fazit

GPT-5.4 Nano ist ein erstaunlich kompetentes kleines Cloud-Modell mit der Arbeitsmoral eines schnellen Sachbearbeiters und dem Temperament eines vorsichtigen Prüfers. Es schreibt knapp, kostet wenig, läuft stabil und liefert besonders in Code Quality, technischer Sichtung und strukturierten Umbauten mehr Substanz, als die Nano-Bezeichnung zunächst vermuten lässt. Seine Schwächen sind ebenso klar: Metakognitions-Compliance ist störrisch, UX- und Kulturfeinheiten sitzen nicht immer sauber, und bei Security wie Reasoning fehlt oft die zweite, tiefere Syntheseschicht.

Empfehlen würde ich es für hochvolumige Standardaufgaben, Klassifikation, Extraktion, Vorprüfungen, Code-Review-Kommentare, erste Security-Triage, Routing und Sub-Agent-Rollen, in denen Kosten und Reaktionsgeschwindigkeit wichtiger sind als intellektuelle Pracht. Weniger geeignet ist es für komplexes Deep Reasoning, streng formatgebundene Reasoning-Workflows, fein austarierte UX-Sprache oder sicherheitskritische Endfreigaben ohne menschliche Kontrolle. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig Zusammenhang, als sich mit Fantasie lächerlich zu machen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.