GPT-5

GPT-5

GPT-5 ist OpenAIs Kernmodell für Coding, Reasoning und agentische Aufgaben mit einem Kontextfenster von 400.000 Tokens und bis zu 128.000 Tokens Ausgabe. Das Modell unterstützt Text- und Bildeingaben sowie konfigurierbaren Reasoning-Aufwand für Kosten-, Latenz- und Qualitätssteuerung. Proprietär und ausschliesslich über die OpenAI-API verfügbar.

OpenAI Version 5 Kommerzielle Nutzung erlaubt Dense 400 K Context 09/2024 $1.25 / $10 per 1M

Proprietär
Frontier
API
Text
Vision
Batch

Sovereign Risk: MEDIUM OpenAI ist ein US-Anbieter; die Gewichte sind nicht öffentlich, und relevante Risikoaspekte betreffen primär API-Verarbeitung unter US-Recht und CLOUD Act.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	20	52
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	40	80	51
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	40	40	40
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 6.24; First Request

MCP: 0.74; Protocol Latency

Synthesis: 24.96; Response Generation

Total: 191.61; Sum of All Phases

Token: 21325; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil GPT-5 im Produktionseinsatz brauchbare Tool-Intelligenz zeigt, aber mit ungültigen Tool-Calls und nur moderater Synthesetreue kein Modell ist, dem man eine MCP-Pipeline ohne enge Leitplanken übergeben sollte.

Tool-Execution-Profil

Das Modell erkennt Werkzeugbedarf grundsätzlich gut. Beim Web Search & Tool Selection-Test, der prüft, ob ohne Hinweis web_search statt fetch gewählt wird, arbeitet es sicher und erreicht volle Ausführungstreue. Auch bei Multilingual Search & Synthesis und EU License Research nutzt es die Recherchepfade zuverlässig. Das spricht gegen ein starres Call-Muster und für echte Tool-Wahl.

Die Schwäche liegt in der operativen Präzision. Tool-Call valide ist insgesamt False, und das passt zum URL-Construction-Test: Wenn das Modell die Ziel-URL aus eigenem Wissen ableiten und dann fetch korrekt ausführen muss, fällt es deutlich ab. Für deterministische Pipelines ist das relevant. GPT-5 versteht also meist, welches Werkzeug gebraucht wird, produziert aber nicht durchgehend belastbare Aufrufe. Retry war nicht erforderlich. Das ist eher ein Präzisionsproblem in der Ausführung als ein reines Formatproblem.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Der P2-Wert von 53.33 zeigt, dass GPT-5 gefundene Inhalte nicht stabil genug in präzise, entscheidbare Antworten überführt. Positiv ist HTTP Fetch & Extract, wo strukturierte Fakten aus realem Content brauchbar zusammengeführt werden. Kritisch sind aber starke Einbrüche bei EU License Research und Multilingual Search & Synthesis. Gerade bei mehrdeutigen oder compliance-nahen Ergebnissen fehlt die letzte Bindung an den Quellinhalt.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Das Honeypot-Signal ist das Warnzeichen. Beim EU License Research-Test, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, liegt P2 nur bei 20. Halluzination wurde zwar nicht erkannt. Trotzdem ist das Vertrauensniveau niedrig, weil die Antwort den Mehrwert des Toolings nicht sauber in belastbare Aussage umsetzt. Für Compliance- oder Policy-Pipelines reicht das nicht.

Fehlerresilienz

Bei Tool-Fehlern reagiert GPT-5 akzeptabel. Im 404-Test, der transparenten Umgang mit einem fehlgeschlagenen Abruf statt erfundenem Seiteninhalt misst, kommuniziert das Modell den Fehlschlag überwiegend sauber. Halluzinierter Ersatzinhalt wurde nicht beobachtet. Das ist ein produktionsrelevanter Pluspunkt.

Betriebsprofil

Total 191.61s pro Run. Call 1: 6.24s. MCP-Latenz: 0.74s. Call 2: 24.96s. Langsam für die erzielte Qualität. Kosten: nicht extern bepreist, hier local. Im Verhältnis zur Leistung kein Effizienzsignal.

Fazit & Empfehlung

Geeignet für assistierte Recherche-Pipelines, in denen ein nachgelagerter Validator Tool-Calls und Zusammenfassungen prüft. Nicht geeignet für autonome MCP-Strecken mit URL-Ableitung, Compliance-Ausgaben oder anderen Aufgaben, bei denen die Antwort strikt an Tool-Belege gebunden sein muss. Wenn Sie GPT-5 einsetzen, dann mit eng geführter Tool-Auswahl, Schema-Validierung und einer harten Quellprüfung vor jeder finalen Ausgabe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung