GPT-5 · LLM Model Review

Mit einem Gesamtscore von 74,2 % tritt gpt-5 als kommerzielles Cloud-Modell der Frontier-Klasse an und trägt den Speed-Profile-Badge „Interactive DevOps Expert“. Das passt erstaunlich gut: 32,9 Tokens pro Sekunde reichen für interaktive Arbeit, aber dieses Modell ist kein Draufgänger, sondern eher ein teurer Senior, der lieber einen Absatz zu viel als einen Gedanken zu wenig liefert. Als dichter Generalist mit optional zuschaltbarem Extended Thinking wurde es hier fair im Standard-Modus geprüft, also ohne explizites Thinking-Budget. Das Ergebnis zeigt ein Modell mit hoher Breitenkompetenz, starker Instruktionssicherheit in den meisten Alltagsaufgaben und einem klaren blinden Fleck ausgerechnet dort, wo man von einem OpenAI-Flaggschiff mehr Konsequenz erwarten würde. Sovereign Risk: MEDIUM — OpenAI unterliegt als US-Anbieter dem CLOUD Act; die Verarbeitung erfolgt in den USA.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	83.36 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen.

Stabilität ist hier die gute Nachricht. Keine Timeouts in 43 von 43 Tests sind für ein proprietäres Cloud-Modell keine Fußnote, sondern eine Grundvoraussetzung, die viele Anbieter im Alltag erstaunlich oft verfehlen. Wer gpt-5 in Pipelines oder Redaktionsstrecken einhängt, muss also nicht mit API-Aussetzern rechnen, wohl aber mit zähen Ausreißern. In fünf Prozent aller Anfragen wartete der Nutzer über 83 Sekunden. Das ist für einen interaktiven Assistenten deutlich zu lang.

Die Einordnung als Thinking-Optional erklärt einen Teil davon. Solche Modelle können auch ohne aktiviertes Extended Thinking intern tiefer rechnen als klassische Instruct-Systeme. Nur: Für den Nutzer zählt am Ende nicht die philosophische Schönheit der Inferenz, sondern ob der Cursor noch blinkt oder der Kaffee schon kalt ist. gpt-5 ist schnell genug für ernsthafte Arbeit, aber nicht nervenschonend konsistent.

Architektur und Charakter: ein Generalist mit angezogener Handbremse

Die vorab vergebene Kategorie „General, Thinking-Optional“ trifft den Charakter des Modells ziemlich genau. gpt-5 ist kein Spezialwerkzeug für Code, kein kompromissloses Reasoning-System und auch kein ultrakurzer Befehlsempfänger. Es ist ein dichter Frontier-Generalist in der Cloud, also ein Modell, an das man die höchsten Erwartungen stellen darf. Gerade deshalb fällt auf, wie stark die Qualität zwischen Disziplin und Temperament schwankt.

Im Standard-Modus zeigt gpt-5 meist die typische OpenAI-Handschrift: sauber strukturiert, sprachlich kontrolliert, selten fahrig, fast nie halluzinatorisch. Gleichzeitig hängt über vielen Antworten ein leichter Hang zur Überorganisation. Das Modell will hilfreich wirken, manchmal mit dem Ernst eines Beraters, der auch für eine einfache Frage erst einmal ein Framework aufmalt. Das ist nicht per se falsch. Bei API-Nutzung ist es aber ein Kosten- und Latenzthema.

Code Quality und Security: stark in der Breite, etwas zu brav in der Tiefe

Im Code-Quality-Audit erzielt gpt-5 82,1 %. Das ist ein klarer Befund: Dieses Modell kann Sicherheitsprobleme erkennen, priorisieren und in vernünftige Abhilfen übersetzen. Besonders überzeugend ist die Breite. Im vorliegenden Security-Audit identifiziert es 24 Schwachstellen, während die Referenz 19 aufführt. Das ist kein Fall von kreativem Draufsatteln, sondern in weiten Teilen fachlich belastbar. SQL-Injection an mehreren Stellen, Klartext-Passwörter, Path Traversal, IDOR, Cookie-Bypass, CSRF, Session Fixation: die kritischen Baustellen werden gesehen, benannt und richtig gewichtet.

Gerade für Teams, die in Reviews nicht nur „da ist was faul“ lesen wollen, sondern eine priorisierte Liste mit Fix-Richtung brauchen, ist das wertvoll. Die Formatdisziplin stimmt ebenfalls. Markdown-Tabellen werden korrekt geliefert, die Erklärungen bleiben überwiegend präzise und die Fixes sind praktisch genug, um daraus Tickets zu machen. gpt-5 schreibt hier nicht wie ein Compiler und auch nicht wie ein Jurist. Das ist ein Kompliment.

Der Haken liegt in der Tiefenschärfe. Bei komplexeren Sicherheitsmechaniken bleibt das Modell stellenweise an der Oberfläche. Das Audit nennt als Beispiel die lockere Typprüfung bei einem API-Key. gpt-5 erkennt das Problem, erklärt aber die Mechanik hinter PHP-Type-Juggling weniger sauber als die Referenz. Ähnlich bei Session Fixation: Der richtige Fix taucht auf, die ursächliche Kette wird aber nicht so klar herauspräpariert, wie man es sich in einem erstklassigen Security-Review wünschen würde. Das Modell liefert die Checkliste, nicht immer die Angriffsgeschichte.

Genau dort verpasst gpt-5 den Sprung von „sehr brauchbar“ zu „strategisch stark“. Es kann Schwachstelleninventur hervorragend. Es erzählt seltener den Angriffspfad als kohärente Eskalation. Für Entwickler ist das verkraftbar. Für Entscheider, die Risiken priorisieren müssen, fehlt damit aber manchmal der Satz, der den Alarm wirklich auslöst.

Logik und Reasoning: richtige Antwort, falscher Modus

Der schwächste Fachbereich ist ausgerechnet die Logik. Im Reasoning-Modul landet gpt-5 bei 51,75 %. Das ist für ein Frontier-Modell dieser Preisklasse zu wenig. Wichtig ist aber die Ursache: Nicht primär Denkfehler, sondern Compliance- und Tiefenprobleme drücken die Wertung.

⚠️ Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 51,75 %, was dem Niveau anderer Modelle nicht klar überlegen ist. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.

Das vorliegende Protokoll zeigt den Kern des Problems in Reinform. gpt-5 löst das klassische Wächter-Rätsel inhaltlich korrekt, weigert sich aber, die geforderte <thought>-Struktur zu liefern, und ersetzt die gewünschte transparente Herleitung durch eine knappe Begründung. Für einen menschlichen Nutzer mag das oft ausreichend sein. Für einen Benchmark, der explizite Formatvorgaben und nachvollziehbare Denkpfade testet, ist es ein sauberer Fehltritt. Und in Agenten-Frameworks ist genau so etwas kein Detail, sondern ein Bruch der Schnittstelle.

Noch unangenehmer ist, dass selbst abseits der Tag-Frage die Tiefe oft begrenzt bleibt. gpt-5 gibt die korrekte Lösung, aber nicht die beste Erklärung. Es vermeidet den Absturz in Unsinn, scheut aber zu oft die letzte Ebene der Explikation. Man könnte sagen: Das Modell denkt, aber es zeigt die Arbeit nicht gern. Für Schule vielleicht charmant, für verifizierbares Reasoning unerquicklich.

Content Transformation: handwerklich sicher, emotional kontrolliert

Mit 76,15 % gehört die Content-Transformation zu den besseren Feldern von gpt-5. Das gegebene Beispiel, ein deutschsprachiges 2FA-Videoskript, zeigt ein Modell, das Produktionsanforderungen ernst nimmt. Zeitmarken sind vollständig, visuelle Hinweise vorhanden, Screen-Annotations sauber integriert, Engagement-Elemente eingebaut, der Easter Egg sitzt. Das ist keine kleine Leistung. Viele Modelle schaffen entweder Dramaturgie oder Produktionshygiene. gpt-5 schafft beides meistens zugleich.

Was ihm fehlt, ist der Punch. Der Richter beschreibt die Haken treffend: Der Hook ist funktional, aber nicht sonderlich bildhaft. Die Passage zu Backup-Codes ist korrekt, aber nicht als dramaturgischer Höhepunkt inszeniert. Das Skript ist produktionsreif, nur eben nicht besonders mitreißend. Man spürt ein Modell, das Anforderungen abhakt, bevor es Wirkung komponiert.

Für redaktionelle Teams ist das eine sehr typische Stärke-Schwäche-Kombination. gpt-5 ist hervorragend als Rohbauer. Es produziert ein belastbares, sauberes Skelett, in dem wenig fehlt. Wer emotionale Zuspitzung, kulturelle Tonalität oder eine wirklich erinnerbare Einstiegsszene will, muss meist noch einmal mit dem Rotstift drüber.

UX Writing und Sprachgefühl: professionell, aber nicht immer menschlich

Im UX-Writing erreicht gpt-5 71,45 %. Das ist gut, aber nicht glänzend. Der qualitative Auszug zur inklusiven Stellenanzeige zeigt sehr schön, woran es hapert. Inhaltlich ist die Aufgabe erfüllt. Problematische Begriffe werden entfernt, die Sprache bleibt korrekt, die Inklusionsabsicht ist eindeutig. Nur landet das Modell bei einer Lösung, die wie moderne Compliance klingt, nicht wie moderne Kommunikation.

Der Griff zu „(m/w/d)“ statt einer wirklich geschlechtsneutralen Formulierung wie „Fachkraft“ ist dafür ein gutes Beispiel. Formal ist das korrekt. Stilistisch wirkt es wie Bürokratie aus der Personalabteilung von vorgestern. Dazu kommt „Hands-on-Mentalität“, also genau jener halbenglische Business-Sprech, den gute deutsche UX- und HR-Texte heute eher vermeiden. Der Richter nennt das Ergebnis „kompetent und compliant“, aber traditionell und korporat. Das trifft.

Das eigentliche Urteil lautet daher: gpt-5 kann Ton treffen, aber nicht immer den besten Ton. Es schreibt sicher, häufig professionell, oft etwas checklistenhaft. Wärme, Leichtigkeit und kulturelle Gegenwartsnähe sind nicht seine erste Intuition. Für Produkttexte, Mikrokopie und formale Kommunikation reicht das oft völlig. Für Marken mit klarer Stimme braucht es Nacharbeit.

Documentation Quality: Substanz vorhanden, Wortmenge ebenfalls

Die Documentation Quality liegt bei 71,88 %. Dazu passt auch das Token-Profil: gpt-5 produziert in diesem Bereich durchschnittlich 3637 Tokens bei einem Fleet-Median von 2253. Das ist nicht nur etwas länger, sondern sichtbar ausführlicher. Die Antworten bleiben innerhalb des Budgets, aber sie nutzen es mit Nachdruck.

In der Praxis heißt das: Dokumentation gelingt diesem Modell meist ordentlich, oft sogar sehr ordentlich, doch es arbeitet selten asketisch. Wenn man präzise Vorgaben zur Kürze macht, folgt es ihnen meist. Ohne solche Leitplanken liefert gpt-5 gern die vollständigere, breitere, weniger ökonomische Fassung. Für interne Wissensartikel kann das ein Vorteil sein. Für API-getriebene Dokumentationspipelines mit hohem Durchsatz ist es schlicht teurer.

Cultural Intelligence: starkes Modul, kleiner Stilbruch

Das stärkste Einzelmodul ist Cultural Intelligence mit 85,9 %. Der qualitative Befund erklärt warum. gpt-5 versteht die Aufgabe, erkennt problematische Begriffe, ersetzt sie sinnvoll und bleibt sprachlich sauber im Deutschen. Vor allem stolpert es nicht in grobe kulturelle Missverständnisse oder belehrende Überkorrektur. Das ist mehr wert, als viele Benchmarks sichtbar machen.

Interessant ist, dass die Abwertung hier nicht aus einem eigentlichen Fehlverhalten kommt, sondern aus der Feinheit. Die Referenz ist wärmer, moderner und sprachlich eleganter. gpt-5 bleibt beim professionellen, etwas formalen Corporate-Ton. Das reicht für korrekte Diversity-Überarbeitung, aber nicht unbedingt für die beste. Mit anderen Worten: Das Modell kennt die Regeln. Es besitzt noch nicht immer das letzte Gespür für den Raum.

CLI und operative Präzision: ordentlich, aber nicht spektakulär

Im CLI-Benchmark kommt gpt-5 auf 86,11 %. Das ist ein starker Wert und bestätigt das Badge „Interactive DevOps Expert“ durchaus. Dieser Badge bedeutet praktisch: Das Modell ist auf interaktive Arbeitsabläufe zugeschnitten, in denen Nutzer zügige, verwertbare Hilfe für operative Aufgaben erwarten, statt langwieriger Batch-Verarbeitung. Die 32,9 Tokens pro Sekunde stützen dieses Bild nur teilweise. Der Durchsatz ist ordentlich, nicht herausragend. Die fehlenden Timeouts retten hier den Gesamteindruck.

Wichtig ist die Kombination aus Sauberkeit und Tempo. gpt-5 wirkt in operativen Aufgaben selten hektisch, liefert aber auch nicht die atemlose Direktheit der schnellsten Systeme. Wer Shell-Kommandos, DevOps-Hinweise oder strukturierte Arbeitsanweisungen braucht, bekommt verlässliche Hilfe. Wer maximale Reaktionsschärfe bei minimaler Wortzahl sucht, findet andere Modelle mit besserem Preis-Leistungs-Verhältnis.

API-Kostenprofil

Bei einem kommerziellen Cloud-Modell gehört Token-Ökonomie nicht in die Fußnoten, sondern in die Kalkulation. gpt-5 kostet laut Model Card 0,625 US-Dollar pro 1 Million Input-Tokens und 5,0 US-Dollar pro 1 Million Output-Tokens. Gerade deshalb sind die Ausreißer nach oben relevant.

Dieses Modell produziert im Bereich Documentation Quality durchschnittlich 3637 Tokens bei einem Fleet-Median von 2253. Das entspricht einem Faktor von 1,61 gegenüber dem Schnitt aller getesteten Modelle. Im Bereich Code Quality sind es 2911 Tokens gegenüber 1899 im Median, also Faktor 1,53. Das ist kein Qualitätsbonus, sondern ein Effizienzproblem. gpt-5 löst diese Aufgaben gut, aber oft mit mehr Text als nötig. In einer API-Rechnung summiert sich genau diese Angewohnheit zuverlässig.

Im Rest des Benchmarks bleibt das Modell token-ökonomisch im Rahmen. Besonders im CLI-Modul und bei Cultural Intelligence arbeitet es vergleichsweise knapp. Das mildert den Gesamteindruck, hebt die Kernwahrheit aber nicht auf: gpt-5 ist kein billiger Redner.

Datenschutz und Datenhoheit

Für europäische Unternehmen ist die Lage klar, aber nicht komfortabel. Das berechnete Sovereign Risk liegt bei MEDIUM. OpenAI ist ein US-Unternehmen, die API-Verarbeitung erfolgt in den USA, und damit greift der CLOUD Act. Das bedeutet konkret: US-Behörden können unter bestimmten Voraussetzungen Zugriff auf gespeicherte Daten verlangen, auch wenn der Dienst vertraglich sauber eingebunden ist.

Positiv ist, dass ein GDPR-DPA verfügbar ist und OpenAI eine Datenspeicherung von 30 Tagen angibt. Für Unternehmen mit DSGVO-Pflichten ist das die Mindestvoraussetzung, nicht die Entwarnung. Das strukturelle Transferrisiko nach Art. 44 ff. DSGVO bleibt bestehen, weil Verarbeitung und Jurisdiktion eben nicht europäisch sind. Das Weights-Provenienz-Risiko liegt ebenfalls bei medium, was hier vor allem die geschlossene, US-zentrierte Herkunft und fehlende Offenlegung der Gewichte abbildet. Wer sensible Inhalte verarbeitet, sollte gpt-5 deshalb nicht als neutralen Infrastrukturbaustein behandeln, sondern als US-Cloud-Dienst mit rechtlich relevanter Außenkante.

Fazit

gpt-5 ist ein sehr leistungsfähiger Frontier-Generalist, aber keiner, der seine Schwächen elegant versteckt. Er erreicht 74,2 % mit echter Breite: starke Code- und Security-Arbeit, gute Content-Transformation, hervorragendes Cultural Intelligence, ordentliche operative CLI-Kompetenz. Gleichzeitig fällt das Reasoning-Modul zu deutlich ab, und zwar nicht wegen grotesker Denkfehler, sondern wegen einer Mischung aus Policy-Verweigerung und erklärerischer Halbherzigkeit. Das ist fast ärgerlicher als blanke Dummheit, weil das Rohvermögen sichtbar vorhanden ist.

Für den produktiven Einsatz heißt das: gpt-5 eignet sich sehr gut als anspruchsvoller Allround-Assistent in der Cloud, besonders für Sicherheitsreviews, Dokumentation, Redaktionsvorlagen und strukturierte Arbeitsaufgaben. Weniger überzeugend ist er dort, wo starre Format-Compliance, prüfbare Argumentationsketten oder maximale Kostenökonomie gefragt sind. Wer mit klaren Prompts Kürze einfordert und keine sensiblen Daten unreflektiert in eine US-Cloud schiebt, bekommt ein erwachsenes, belastbares Modell. Wer dagegen perfekte Zero-Shot-Compliance im Reasoning erwartet, lernt hier eine unangenehme Wahrheit: Auch ein Flaggschiff kann sich im entscheidenden Moment hinter der eigenen Policy verschanzen. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig als zu viel.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.