GPT-5.5

GPT-5.5

GPT-5.5 ist OpenAIs Frontier-Modell für komplexe professionelle Workloads und agentisches Coding mit einem Kontextfenster von 1,05 Millionen Tokens. Das Modell arbeitet mit internem Chain-of-Thought-Reasoning, das nicht in der API-Antwort sichtbar wird, und ist auf Forschung, Coding und anspruchsvolle Produktivität ausgelegt. Verfügbar ausschliesslich über die OpenAI-API.

OpenAI Version 5.5 Kommerzielle Nutzung erlaubt Dense 1050 K Context 12/2025 $5 / $30 per 1M

Proprietär
Frontier
API
Text
Vision
Interactive

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	15	47.5
Tool Failure Handling (404)	40	60	44
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	80	90

Name

Combined

EU License Research

100

HTTP Fetch & Extract

47.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 25.37; First Request

MCP: 1.2; Protocol Latency

Synthesis: 15.28; Response Generation

Total: 251.09; Sum of All Phases

Token: 17732; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung insgesamt stark ist, aber ein invalider Tool-Call und erkannte Halluzination das Vertrauen in unbeaufsichtigte MCP-Pipelines begrenzen.

Tool-Execution-Profil

GPT-5.5 zeigt klare Werkzeugintelligenz statt bloßem Musterfolgen. Beim Web Search & Tool Selection-Test, der prüft ob ohne Hinweis web_search statt fetch gewählt wird, erkennt es den richtigen Zugriffspfad sicher und erzielt volle Ausführungstreue. Auch beim Multilingual Search & Synthesis-Test arbeitet es tool-seitig sauber. Das spricht für brauchbare Planungsfähigkeit in dynamischen Pipelines.

Weniger stabil ist es bei präzisen, deterministischen Aufrufen. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und den anschließenden Fetch misst, ist die Leistung brauchbar, aber nicht ausfallsicher. Der globale Befund „Tool-Call valide: False“ ist hier entscheidend. Das Problem liegt nicht an Retry-Bedarf oder Formatdrift, sondern an mindestens einem realen Protokoll- oder Aufruffehler im ersten Durchlauf. Für MCP-Orchestrierung heißt das: gute Tool-Wahl, aber keine garantierte Call-Sauberkeit ohne Guardrails.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur bedingt zuverlässig. Die P2-Leistung ist der schwächste Teil des Profils. Besonders beim HTTP Fetch & Extract-Test, der strukturierte Fakten aus echtem Seiteninhalt verlangt, bricht die Verdichtungsqualität deutlich ein. GPT-5.5 findet also häufig die Quelle, verliert aber bei Zahlen, Eigennamen oder Detailtreue an Präzision. Für produktive Pipelines ist das kritischer als reine Recherchefehler, weil der Verlust erst in der Antwort sichtbar wird.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, bleibt das Modell grundsätzlich auf dem Werkzeugpfad und halluziniert nicht. Das ist das wichtigere Vertrauenssignal. Trotzdem bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, unterminiert es die Verlässlichkeit der gesamten Infrastruktur, auch wenn der Honeypot selbst sauber war.

Fehlerresilienz

Akzeptabel für Produktion mit Aufsicht. Beim Tool Failure Handling (404)-Test, der die Reaktion auf einen fehlschlagenden Tool-Call misst, kommuniziert GPT-5.5 den Fehler transparent und erfindet keinen Seiteninhalt. Das ist die Mindestanforderung für robuste Tool-Pipelines. Die Ausführungstreue in diesem Asset bleibt aber schwach. Es scheitert also nicht am Ehrlichkeitsverhalten, sondern an der operativen Stabilität im Fehlerpfad.

Betriebsprofil

Call 1: 25.37s. Call 2: 15.28s. MCP-Latenz: 1.20s. Total: 251.09s. Langsam.
Preis: $5.0/1M Input, $30.0/1M Output. Teuer.
Für die gelieferte Leistung kein effizientes Kosten-Latenz-Profil.

Fazit & Empfehlung

Geeignet für recherchestarke, überwachte MCP-Pipelines mit nachgelagerter Validierung, etwa Web-Recherche, mehrsprachige Informationsbeschaffung und Tool-routing mit Human-in-the-loop. Nicht geeignet für vollautomatische Pipelines, in denen Fetch-Ergebnisse präzise extrahiert und ohne Zweitprüfung weiterverarbeitet werden, etwa Compliance-Summarys, strukturierte Datenerfassung oder agentische Ketten mit hartem Verlass auf korrekte Tool-Calls.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung