GPT-4o

GPT-4o ist OpenAIs multimodales Allround-Modell mit nativem Zugang zu Text-, Bild- und Audio-Eingaben. Es arbeitet mit einem Kontextfenster von 128.000 Tokens, ist ausschliesslich über die OpenAI-API verfügbar und richtet sich an ein breites Spektrum produktiver Anwendungen von Analyse und Coding bis zu natürlicher Gesprächsführung.

OpenAI Version 2024-05-13 Kommerzielle Nutzung erlaubt Dense 128 K Context 10/2023 $2.5 / $10 per 1M

  • Proprietär
  • Frontier
  • API
  • Text
  • Vision
  • Audio
  • Instruction-Tuned
  • Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
0.71
First Request
MCP
1.05
Protocol Latency
Synthesis
2.19
Response Generation
Total
23.68
Sum of All Phases
Token
7288
Input + Output
Cost
$0.0327
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy: GPT-4o ist für MCP-gestützte Tool-Pipelines bei Tool-Ausführung verlässlich, aber die Syntheseleistung ist zu inkonsistent, um unbeaufsichtigt faktenkritische Endausgaben zu tragen.

Tool-Execution-Profil

Das Modell arbeitet auf der Ausführungsebene stark. Tool-Calls waren valide, MCP-protokollkonform und ohne Retry nutzbar. Das ist für Produktion der erste notwendige Filter, und GPT-4o besteht ihn.

Bei Web Search & Tool Selection, das ohne expliziten Hinweis prüft, ob web_search statt fetch nötig ist, trifft es die Werkzeugwahl sicher. Das spricht gegen reines Musterfolgen und für brauchbare Tool-Intelligenz in dynamischen Pfaden. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und anschließendes Fetch misst, bleibt die Ausführung brauchbar, aber weniger deterministisch. Das Modell kann also den richtigen Operatortyp wählen, ist aber bei selbst konstruierten Zieladressen nicht präzise genug für fragile Fetch-Ketten.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die P2-Leistung ist der klare Schwachpunkt. Besonders bei HTTP Fetch & Extract, das strukturierte Fakten aus echtem Seiteninhalt prüft, und bei Multilingual Search & Synthesis, das sprachübergreifende Recherche mit deutscher Verdichtung misst, verliert GPT-4o Präzision und Selektionsschärfe. Für produktive Pipelines heißt das: Die Beschaffung klappt häufiger als die saubere Weiterverarbeitung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen erzwingen soll, bleibt der Vertrauensbefund akzeptabel: keine Halluzination, Content-Verification-State A. Dennoch ist das globale Halluzinationssignal aktiv. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Ergebnis einer Tool-Kette ausgibt, beschädigt es das Vertrauen in die gesamte Infrastruktur.

Fehlerresilienz

Im 404-Test, der einen fehlschlagenden Tool-Call provoziert, reagiert GPT-4o produktionsgerecht. Es kommuniziert den Fehler transparent und erfindet keinen Seiteninhalt. Genau dieses Verhalten ist in robusten Pipelines akzeptabel, weil der Orchestrator den Fehlerzustand sauber weiterverarbeiten kann.

Betriebsprofil

0.71s erster Call, 1.05s MCP-Latenz, 2.19s zweiter Call, 23.68s total.
Kosten pro Run: 0.032734.
Direktaussage: schnell in den Einzelaufrufen, aber hoher End-to-End-Overhead; für die gezeigte Gesamtleistung eher nicht günstig.

Fazit & Empfehlung

Geeignet für allgemeine Recherche-Pipelines, Tool-Auswahl, Web-Navigation und überwachte Assistenzsysteme, in denen ein nachgelagerter Validator oder ein Mensch die Verdichtung prüft. Nicht geeignet als alleinige Instanz für Compliance, mehrsprachige Faktensynthese oder Extraktionsstrecken, bei denen die Antwort direkt als vertrauenswürdiges Tool-Ergebnis weitergereicht wird. Wer GPT-4o einsetzt, sollte die Tool-Ausführung nutzen, aber die Endsynthese absichern.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.