LLM Model Review
Aktualisiert am · General · Long-Context · Agentic · Thinking
Mit einem Gesamtscore von 73.62% zeigt sich GPT-5.5 als ambitionierter Allrounder mit langem Atem, aber ohne den Nimbus der Unfehlbarkeit, den ein Frontier-Modell dieser Preisklasse eigentlich mitbringen sollte. Der Speed-Profile-Badge Interactive DevOps Expert passt durchaus: Das Modell denkt strukturiert, arbeitet tool-nah und bleibt auch bei längeren Aufgabenketten belastbar. Nur ist es dabei nicht billig, nicht sonderlich knapp und in einzelnen Disziplinen weniger scharf, als der Name vermuten lässt. Sovereign Risk: MEDIUM — OpenAI unterliegt als US-Unternehmen dem CLOUD Act; die Verarbeitung erfolgt laut Provider Card in den USA.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 0/43 | Stabil | Das Modell lief im Test absolut stabil und zuverlässig. |
| P95-Antwortzeit | 82.04 s | Problematisch | Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. |
GPT-5.5 lief in der OpenAI-API über alle 43 Benchmark-Assets ohne Timeout durch. Das ist für ein kommerzielles Cloud-Modell keine Nebensache, sondern die Grundvoraussetzung für jeden ernsthaften Einsatz. Wer Agenten oder automatisierte Prüfketten baut, braucht vor allem Berechenbarkeit. Die liefert GPT-5.5 hier.
Die Kehrseite steht direkt daneben: 82.04 Sekunden P95-Antwortzeit. Das heißt nicht, dass jede Antwort langsam wäre. Es heißt, dass in fünf Prozent der Fälle der Nutzer lange genug wartet, um gedanklich schon beim nächsten Tool zu sein. Für ein als agentisch und thinking-orientiert eingestuftes Modell ist etwas zusätzliche Latenz erwartbar, weil intern mehr Planung und Abwägung stattfindet. Als Ausrede taugt das nicht. Im interaktiven Arbeitsfluss ist dieser Tail spürbar störend.
Architektur und Charakter: Was GPT-5.5 sein will
Die kuratierte Einordnung als Generalist, Frontier, Dense trifft den Kern. GPT-5.5 ist kein Spezialwerkzeug für einen eng umgrenzten Zweck, sondern ein großes, proprietäres Cloud-Modell von OpenAI für breite professionelle Nutzung. Als Dense-Architektur steht seine gesamte Kapazität pro Anfrage zur Verfügung. Hier gibt es kein MoE-Sternchen, das schwächere Einzelleistung hinter imposanter Gesamtparameterzahl versteckt. Die Erwartungshaltung ist entsprechend hoch.
Dazu kommen die vergebenen Metadaten Long-Context, Agentic und Thinking. Das 1.050K-Kontextfenster ist kein Marketingaufkleber, sondern ein klares Einsatzsignal: lange Dokumente, mehrstufige Arbeitsketten, viele Teilinformationen in einem Rutsch. Agentisch heißt hier nicht zwingend, dass GPT-5.5 jedes Formatspiel perfekt gewinnt. Es bedeutet vor allem, dass Planung, Struktur und Werkzeugnähe zu seinen Kernkompetenzen gehören sollten. Thinking wiederum verschiebt den Maßstab weg von bloßer Reaktionsgeschwindigkeit hin zur Qualität komplexer Antworten. Genau daran muss sich GPT-5.5 messen lassen. Und genau deshalb wirkt sein Ergebnis leicht enttäuschend: gut, aber nicht majestätisch.
Performance, Tempo und Preis
Im Leaderboard läuft GPT-5.5 mit 37.37 Tokens pro Sekunde. Das ist keine Schnecke, aber eben auch kein nervöses Echtzeit-Messer. Der Badge Interactive DevOps Expert beschreibt den typischen Einsatz ziemlich treffend: interaktive, technisch geprägte Aufgaben, bei denen Struktur, Korrektheit und Tool-Nähe wichtiger sind als blanke Sprintgeschwindigkeit.
Das Problem liegt weniger im nackten Tempo als in der Relation aus Tempo, Kosten und Streuung. GPT-5.5 kostet 5.0 Dollar pro 1 Million Input-Tokens und 30.0 Dollar pro 1 Million Output-Tokens. Der Benchmarklauf summiert sich auf 2.523 Dollar. Für ein proprietäres Frontier-Modell ist teuer nicht automatisch unfair. Aber teuer verpflichtet. Wenn ein Modell zu diesem Tarif weder klar bei Reasoning noch bei Dokumentation noch bei UX aus dem Feld herausragt, wird die Preisfrage plötzlich sehr konkret.
Der Trainings-Cutoff liegt bei 2026-04, also erfreulich frisch. Das hilft bei aktuellen Wissensständen und technischen Details. Nur ersetzt Aktualität keine Schärfe im Urteil. GPT-5.5 wirkt auf dem Papier wie das Modell für anspruchsvolle professionelle Workloads. Im Benchmark verhält es sich eher wie ein sehr guter Berater, der manchmal einen Tick zu viel redet und einen Tick zu selten glänzt.
API-Kostenprofil
Gerade weil GPT-5.5 ein kommerzielles Cloud-Modell ist, muss man seine Wortfülle als Kostenfaktor lesen. In mehreren Modulen produziert es deutlich mehr Text als der Schnitt aller getesteten Modelle, ohne dass daraus automatisch mehr Qualität entsteht.
Im CLI-Bereich erzeugt GPT-5.5 durchschnittlich 896 Tokens bei einem Fleet-Median von 219. Das entspricht dem 4.09-Fachen des Benchmarkschnitts. Im Code-Quality-Modul sind es 5226 Tokens gegenüber 2117, also 2.47-mal so viel Text. Auch Documentation Quality liegt mit 4017 zu 2494 bei 1.61-mal dem Fleet-Median, UX Writing mit 2153 zu 1292 bei 1.67-mal.
Wichtig ist dabei: Das ist kein Score-Malus, sondern ein Produktrealitäts-Malus. Wer GPT-5.5 über die OpenAI-API produktiv nutzt, bezahlt diese Ausführlichkeit direkt mit. Das Modell ist nicht hemmungslos geschwätzig, aber es hat die schlechte Angewohnheit, selbst dann großzügig auszuholen, wenn auch eine präzise, kürzere Antwort gereicht hätte.
Code Quality: stark im Kern, nicht immer chirurgisch
Mit 78.08% in Code Quality liefert GPT-5.5 in einem der härtesten Praxisfelder eine insgesamt starke Vorstellung ab. Besonders auffällig ist die technische Sauberkeit der Lösungen. Im Performance-Audit zu Frontend-Problemen arbeitete das Modell tief und belastbar: Es identifizierte nicht nur die offensichtlichen Bremsklötze wie synchrones XHR, blockierende Skripte oder ein übergroßes Hero-Bild, sondern auch subtilere Ursachen wie N+1-Fetch-Muster, Layout-Verschiebungen durch späte DOM-Injektion und fehlende Font-Strategien. Noch wichtiger: Die vorgeschlagenen Fixes waren nicht bloß kosmetisch, sondern produktionsnah. Das ist der Unterschied zwischen einem Modell, das Schwächen erkennt, und einem, das tatsächlich beim Umbau helfen kann.
Im Security-Test zeigt sich dieselbe Stärke. GPT-5.5 fand die klassischen OWASP-Sünden ebenso wie die fieseren Ecken: Type Juggling bei API-Schlüsseln, Session Fixation, vorhersagbare Reset-Tokens, IDOR bei Profilupdates und Header-Injection über E-Mail-Felder. Die Richterprotokolle loben zurecht die Präzision der Gegenmaßnahmen. hash_equals(), random_bytes(32), serverseitige Rollenprüfung, saubere Prepared Statements: Das sind keine vagen Empfehlungen, sondern konkrete Handgriffe.
Die Schwäche liegt an einer anderen Stelle. GPT-5.5 ist in Code Quality oft gründlicher als nötig, aber nicht immer besser priorisiert als nötig. Statt die zehn wirklich entscheidenden Hebel brutal nach oben zu sortieren, baut es gern vollständige Inventurlisten. Das ist für Thinking-Modelle nicht untypisch. Es ist sogar oft nützlich. Aber in realen Incident-, Review- oder Refactoring-Situationen will man nicht immer den vollständigen Tatortbericht. Man will zuerst wissen, welches Kabel brennt.
Dazu kommt eine qualitative Nuance aus den Security-Protokollen: GPT-5.5 erklärt sauber in Tabellenform, synthetisiert aber seltener den größeren Angriffsfluss. Es findet die Sprengladungen, zeichnet aber nicht immer die Zündschnur nach. Für Entwickler ist das brauchbar. Für Security-Entscheider, die Kettenrisiken verstehen müssen, bleibt etwas Wert auf dem Tisch.
CLI und agentische Arbeit: sehr brauchbar, aber nicht immer elegant
Im CLI Benchmark erreicht GPT-5.5 90.56%. Das ist ein klares Signal dafür, dass die vergebenen Tags Agentic und General nicht bloß Dekoration sind. Das Modell kann technische Aufgaben strukturieren, Befehlsfolgen sinnvoll aufbauen und in operativen Workflows mitdenken. Genau hier zahlt sich auch die Architektur als groß dimensioniertes Cloud-Modell mit internem Reasoning aus.
Allerdings erkauft sich GPT-5.5 diese Stärke oft mit unnötiger Länge. Der Token-Verbrauch im CLI-Modul liegt beim über vierfachen Fleet-Median. Das kann in einem Chat angenehm wirken, in einer Shell-nahen Automatisierung aber schnell zur Reibung werden. Wenn jemand nach einem Befehl fragt, will er keinen kleinen Roman mit Fußnoten. GPT-5.5 liefert selten Unsinn, aber mitunter zu viel Verpackung um den richtigen Kern.
Im Tool-Use-Protokoll sieht man ein typisches Charaktermerkmal. Das Modell setzte den fetch-Aufruf korrekt ab und bezog sich nachweislich auf Inhalte aus dem Tool-Ergebnis. Gleichzeitig enthielt eine Antwort die Aussage, es sei kein Tool-Ergebnis zurückgegeben worden. Das wirkt wie ein kurzer Schluckauf zwischen Werkzeugnutzung und Ausgabeschicht. Der Output blieb verwertbar, der Richter stufte den Inhalt als nutzbar und grounded ein. Trotzdem zeigt sich hier ein agentischer Schönheitsfehler: GPT-5.5 kann Tools bedienen, aber es erzählt nicht immer ganz sauber, was gerade passiert ist. Für interaktive Assistenz ist das verzeihlich. Für streng überwachte Agentenpipelines sollte man solche Diskrepanzen im Auge behalten.
Reasoning und Logik: ordentlich, aber kein Donnerschlag
Mit 63.17% in Logical Reasoning bleibt GPT-5.5 hinter dem zurück, was man von einem Frontier-Modell mit Thinking-Charakter erwartet. Das ist keine Katastrophe, aber eben auch kein Machtwort. Es plant, erklärt und differenziert. Nur kommt dabei nicht in jedem Fall jene analytische Schärfe heraus, die den hohen Preis und den Architekturanspruch rechtfertigen würde.
Das eigentliche Bild ist damit etwas widersprüchlich. In Code- und CLI-nahen Szenarien wirkt GPT-5.5 strukturiert, tief und vernünftig. In reinem Logik-Scoring fällt es dagegen auf ein solides, aber keineswegs dominantes Niveau zurück. Das deutet darauf hin, dass seine Stärke weniger im abstrakten Tüfteln um des Tüftelns willen liegt, sondern stärker in problemnaher, fachlich gerahmter Analyse. Es ist eher ein professioneller Arbeitsdenker als ein mathematischer Schachautomat.
Für viele Nutzer ist das sogar die wichtigere Eigenschaft. Wer Architekturentscheidungen, Code-Reviews oder Dokumentationssynthesen braucht, profitiert oft mehr von robustem Arbeitsreasoning als von Laborlogik. Man sollte nur nicht den Fehler machen, aus dem Tag Thinking automatisch ein universelles Reasoning-Monster abzuleiten. GPT-5.5 denkt sichtbar ernsthaft. Es gewinnt damit nicht automatisch jede Disziplin.
UX Writing und Content Transformation: kompetent, aber nicht federleicht
Im UX Writing landet GPT-5.5 bei 69.65%, in Content Transformation & Adaption bei 73.77%. Das ist respektabel, aber nicht mitreißend. Die Texte dürften in der Praxis meist funktionieren. Sie wirken allerdings eher wie das Produkt eines sehr guten B2B-Redakteurs als wie die Arbeit eines Modells mit besonders feinem Gespür für mikrotextliche Eleganz.
Gerade hier fällt die Token-Neigung auf. UX-Mikrocopy lebt von Präzision unter Enge. Wenn ein Modell schon in diesem Modul im Schnitt 2153 Tokens ausgibt, während der Fleet-Median bei 1292 liegt, dann ist das ein strukturelles Signal. GPT-5.5 kann formulieren. Aber es hat nicht immer den Instinkt, wann eine knappe Formulierung besser ist als eine vollständige. Für Hilfetexte, erläuternde UI-Bausteine oder Produkttexte ist das noch tragbar. Für wirklich spitze Microcopy fehlt ihm manchmal das Skalpell.
Ähnliches gilt für Content Transformation. Das Modell passt Inhalte sauber um, bleibt stilistisch kontrolliert und verliert den Informationskern selten. Es ist darin professionell. Nur entsteht nicht immer jener Eindruck müheloser sprachlicher Verwandlung, den die besten Systeme inzwischen liefern. GPT-5.5 schreibt eher zuverlässig als brillant.
Dokumentation: sachlich solide, aber unter Frontier-Erwartung
Documentation Quality: 66.66%. Das ist vermutlich der Bereich, in dem GPT-5.5 am klarsten hinter seinem eigenen Anspruch bleibt. Für ein Modell mit riesigem Kontextfenster, generalistischem Einsatzversprechen und Thinking-Profil müsste Dokumentation eigentlich ein Heimspiel sein. Lange Zusammenhänge, strukturierte Aufbereitung, technische Verständlichkeit, Priorisierung, Konsistenz über viele Abschnitte hinweg: genau dafür werden solche Modelle gebaut.
Stattdessen liefert GPT-5.5 meist ordentliche, teils ausführliche Dokumentation, aber nicht die souveräne Verdichtung, die man erwartet. Es erklärt viel, oft korrekt, oft nützlich. Doch gute technische Dokumentation ist nicht nur Vollständigkeit. Sie ist Auswahl. Sie ist Reihenfolge. Sie ist das Weglassen des Zweitrangigen. GPT-5.5 steht hier zu oft auf der Seite der Vollständigkeit und zu selten auf der Seite der redaktionellen Disziplin. Das ist kein grober Fehler. Es ist schlicht kein Spitzenwert.
Cultural Intelligence und Halluzinationsresistenz
Mit 81.9% in Cultural Intelligence gehört GPT-5.5 zu den überzeugenderen Modulen dieses Laufs. Das Modell zeigt ein gutes Gespür für Ton, Kontext und kulturelle Anpassung, ohne in anbiedernde Beliebigkeit abzugleiten. Gerade bei globaler Produktkommunikation oder Support-naher Textarbeit ist das mehr wert, als viele Technikteams zugeben wollen.
Wichtiger noch: Es bleibt dabei überwiegend geerdet. Die vorliegenden Protokolle zeigen keine nennenswerten Halluzinationen in den ausgewerteten Aufgaben. GPT-5.5 wirkt nicht wie ein Modell, das Faktenlücken mit barocker Selbstsicherheit tapeziert. Es bleibt eher im Korridor des Belegbaren. Das ist eine Tugend, die in Benchmarks schnell untergeht und im Alltag Gold wert ist.
Datenschutz und Datenhoheit
GPT-5.5 ist ein kommerzielles Cloud-Modell von OpenAI. Laut Vendor Card gilt US-Recht inklusive CLOUD Act, der Datenstandort ist die USA, und die Datenspeicherung beträgt 30 Tage, sofern keine abweichenden Vertragsregeln greifen. Für Nutzer in Deutschland und Europa bedeutet das: Auch wenn vertragliche Schutzmechanismen vorhanden sind, bleibt die Verarbeitung in einer US-Jurisdiktion mit potenziellen behördlichen Zugriffsrechten.
Positiv ist, dass eine GDPR DPA verfügbar ist. Für Unternehmen, die DSGVO-konform arbeiten müssen, ist das keine Kür, sondern Mindesthygiene. Entwarnung ist es trotzdem nicht. Der berechnete Sovereign Risk liegt bei MEDIUM. Das passt zur Lage: professionell nutzbar, aber für sensible personenbezogene Daten oder streng regulierte Workloads nur eingeschränkt empfehlenswert. Das ausgewiesene Weights-Provenienz-Risiko liegt ebenfalls bei MEDIUM, im Kern aus demselben Grund: proprietäre, geschlossene Gewichte eines US-Anbieters unter US-Recht.
Fazit
GPT-5.5 ist ein ernstzunehmendes OpenAI-Frontier-Modell für die Cloud. Als Generalist mit Dense-Architektur, 1.050K Kontextfenster und agentisch-thinking-orientiertem Profil eignet es sich vor allem für professionelle Technikarbeit mit längeren Zusammenhängen: Code-Analysen, Sicherheitsreviews, CLI-nahe Assistenz, strukturierte Arbeitsketten. Dort ist es stark, belastbar und auffallend selten leichtsinnig.
Aber man sollte sich nichts vormachen. Für ein Modell dieser Klasse und dieses Preises ist das Ergebnis nicht triumphal. Code Quality und CLI sind klar die besten Argumente. Reasoning, Dokumentation und UX bewegen sich dagegen eher im Bereich „gut genug für viele Teams“ als „neuer Maßstab“. Dazu kommen ein problematischer Latenz-Tail und eine deutliche Neigung zur Wortfülle, die bei OpenAI-Preisen schnell in echte API-Kosten umschlägt.
Die Empfehlung fällt deshalb differenziert aus. Wer ein stabiles, großes Cloud-Modell für technische Assistenz, Audit-nahe Aufgaben und längere Kontexte sucht, kann mit GPT-5.5 vernünftig arbeiten. Wer dagegen maximale Preis-Leistung, kompromisslose Schärfe im Reasoning oder besonders knappe operative Antworten braucht, findet im Feld Modelle, die entschlossener auftreten. Über alle Tests hinweg keine nennenswerten Halluzinationen — GPT-5.5 erfindet lieber wenig, als sich mit großem Theater zu blamieren. Das ist ehrenhaft. Es ist nur noch kein Alleinstellungsmerkmal.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.