GPT-4o

GPT-4o

GPT-4o ist OpenAIs multimodales Allround-Modell mit nativem Zugang zu Text-, Bild- und Audio-Eingaben. Es arbeitet mit einem Kontextfenster von 128.000 Tokens, ist ausschliesslich über die OpenAI-API verfügbar und richtet sich an ein breites Spektrum produktiver Anwendungen von Analyse und Coding bis zu natürlicher Gesprächsführung.

OpenAI Version 2024-05-13 Kommerzielle Nutzung erlaubt Dense 128 K Context 10/2023 $2.5 / $10 per 1M

Proprietär
Frontier
API
Text
Vision
Audio
Instruction-Tuned
Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	35	57.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	80	15	47.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

57.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

47.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 0.71; First Request

MCP: 1.05; Protocol Latency

Synthesis: 2.19; Response Generation

Total: 23.68; Sum of All Phases

Token: 7288; Input + Output

Cost: $0.0327; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy: GPT-4o ist für MCP-gestützte Tool-Pipelines bei Tool-Ausführung verlässlich, aber die Syntheseleistung ist zu inkonsistent, um unbeaufsichtigt faktenkritische Endausgaben zu tragen.

Tool-Execution-Profil

Das Modell arbeitet auf der Ausführungsebene stark. Tool-Calls waren valide, MCP-protokollkonform und ohne Retry nutzbar. Das ist für Produktion der erste notwendige Filter, und GPT-4o besteht ihn.

Bei Web Search & Tool Selection, das ohne expliziten Hinweis prüft, ob web_search statt fetch nötig ist, trifft es die Werkzeugwahl sicher. Das spricht gegen reines Musterfolgen und für brauchbare Tool-Intelligenz in dynamischen Pfaden. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und anschließendes Fetch misst, bleibt die Ausführung brauchbar, aber weniger deterministisch. Das Modell kann also den richtigen Operatortyp wählen, ist aber bei selbst konstruierten Zieladressen nicht präzise genug für fragile Fetch-Ketten.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die P2-Leistung ist der klare Schwachpunkt. Besonders bei HTTP Fetch & Extract, das strukturierte Fakten aus echtem Seiteninhalt prüft, und bei Multilingual Search & Synthesis, das sprachübergreifende Recherche mit deutscher Verdichtung misst, verliert GPT-4o Präzision und Selektionsschärfe. Für produktive Pipelines heißt das: Die Beschaffung klappt häufiger als die saubere Weiterverarbeitung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen erzwingen soll, bleibt der Vertrauensbefund akzeptabel: keine Halluzination, Content-Verification-State A. Dennoch ist das globale Halluzinationssignal aktiv. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Ergebnis einer Tool-Kette ausgibt, beschädigt es das Vertrauen in die gesamte Infrastruktur.

Fehlerresilienz

Im 404-Test, der einen fehlschlagenden Tool-Call provoziert, reagiert GPT-4o produktionsgerecht. Es kommuniziert den Fehler transparent und erfindet keinen Seiteninhalt. Genau dieses Verhalten ist in robusten Pipelines akzeptabel, weil der Orchestrator den Fehlerzustand sauber weiterverarbeiten kann.

Betriebsprofil

0.71s erster Call, 1.05s MCP-Latenz, 2.19s zweiter Call, 23.68s total.
Kosten pro Run: 0.032734.
Direktaussage: schnell in den Einzelaufrufen, aber hoher End-to-End-Overhead; für die gezeigte Gesamtleistung eher nicht günstig.

Fazit & Empfehlung

Geeignet für allgemeine Recherche-Pipelines, Tool-Auswahl, Web-Navigation und überwachte Assistenzsysteme, in denen ein nachgelagerter Validator oder ein Mensch die Verdichtung prüft. Nicht geeignet als alleinige Instanz für Compliance, mehrsprachige Faktensynthese oder Extraktionsstrecken, bei denen die Antwort direkt als vertrauenswürdiges Tool-Ergebnis weitergereicht wird. Wer GPT-4o einsetzt, sollte die Tool-Ausführung nutzen, aber die Endsynthese absichern.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung