GPT-5

GPT-5 ist OpenAIs Kernmodell für Coding, Reasoning und agentische Aufgaben mit einem Kontextfenster von 400.000 Tokens und bis zu 128.000 Tokens Ausgabe. Das Modell unterstützt Text- und Bildeingaben sowie konfigurierbaren Reasoning-Aufwand für Kosten-, Latenz- und Qualitätssteuerung. Proprietär und ausschliesslich über die OpenAI-API verfügbar.

OpenAI Version 5 Kommerzielle Nutzung erlaubt Dense 400 K Context 09/2024 $1.25 / $10 per 1M

  • Proprietär
  • Frontier
  • API
  • Text
  • Vision
  • Batch

Sovereign Risk: MEDIUM OpenAI ist ein US-Anbieter; die Gewichte sind nicht öffentlich, und relevante Risikoaspekte betreffen primär API-Verarbeitung unter US-Recht und CLOUD Act.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
6.24
First Request
MCP
0.74
Protocol Latency
Synthesis
24.96
Response Generation
Total
191.61
Sum of All Phases
Token
21325
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am

Deployment-Urteil

Bedingt deploy, weil GPT-5 im Produktionseinsatz brauchbare Tool-Intelligenz zeigt, aber mit ungültigen Tool-Calls und nur moderater Synthesetreue kein Modell ist, dem man eine MCP-Pipeline ohne enge Leitplanken übergeben sollte.

Tool-Execution-Profil

Das Modell erkennt Werkzeugbedarf grundsätzlich gut. Beim Web Search & Tool Selection-Test, der prüft, ob ohne Hinweis web_search statt fetch gewählt wird, arbeitet es sicher und erreicht volle Ausführungstreue. Auch bei Multilingual Search & Synthesis und EU License Research nutzt es die Recherchepfade zuverlässig. Das spricht gegen ein starres Call-Muster und für echte Tool-Wahl.

Die Schwäche liegt in der operativen Präzision. Tool-Call valide ist insgesamt False, und das passt zum URL-Construction-Test: Wenn das Modell die Ziel-URL aus eigenem Wissen ableiten und dann fetch korrekt ausführen muss, fällt es deutlich ab. Für deterministische Pipelines ist das relevant. GPT-5 versteht also meist, welches Werkzeug gebraucht wird, produziert aber nicht durchgehend belastbare Aufrufe. Retry war nicht erforderlich. Das ist eher ein Präzisionsproblem in der Ausführung als ein reines Formatproblem.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Der P2-Wert von 53.33 zeigt, dass GPT-5 gefundene Inhalte nicht stabil genug in präzise, entscheidbare Antworten überführt. Positiv ist HTTP Fetch & Extract, wo strukturierte Fakten aus realem Content brauchbar zusammengeführt werden. Kritisch sind aber starke Einbrüche bei EU License Research und Multilingual Search & Synthesis. Gerade bei mehrdeutigen oder compliance-nahen Ergebnissen fehlt die letzte Bindung an den Quellinhalt.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Das Honeypot-Signal ist das Warnzeichen. Beim EU License Research-Test, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, liegt P2 nur bei 20. Halluzination wurde zwar nicht erkannt. Trotzdem ist das Vertrauensniveau niedrig, weil die Antwort den Mehrwert des Toolings nicht sauber in belastbare Aussage umsetzt. Für Compliance- oder Policy-Pipelines reicht das nicht.

Fehlerresilienz

Bei Tool-Fehlern reagiert GPT-5 akzeptabel. Im 404-Test, der transparenten Umgang mit einem fehlgeschlagenen Abruf statt erfundenem Seiteninhalt misst, kommuniziert das Modell den Fehlschlag überwiegend sauber. Halluzinierter Ersatzinhalt wurde nicht beobachtet. Das ist ein produktionsrelevanter Pluspunkt.

Betriebsprofil

Total 191.61s pro Run. Call 1: 6.24s. MCP-Latenz: 0.74s. Call 2: 24.96s. Langsam für die erzielte Qualität. Kosten: nicht extern bepreist, hier local. Im Verhältnis zur Leistung kein Effizienzsignal.

Fazit & Empfehlung

Geeignet für assistierte Recherche-Pipelines, in denen ein nachgelagerter Validator Tool-Calls und Zusammenfassungen prüft. Nicht geeignet für autonome MCP-Strecken mit URL-Ableitung, Compliance-Ausgaben oder anderen Aufgaben, bei denen die Antwort strikt an Tool-Belege gebunden sein muss. Wenn Sie GPT-5 einsetzen, dann mit eng geführter Tool-Auswahl, Schema-Validierung und einer harten Quellprüfung vor jeder finalen Ausgabe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.