o4-mini

o4-mini

o4-mini ist OpenAIs kompaktes Reasoning-Modell mit nativem Vision-Eingang für Bilder, Diagramme und Screenshots. Das Modell verarbeitet Text und Bild, arbeitet mit einem Kontextfenster von 200.000 Tokens und bietet drei einstellbare Reasoning-Stufen für die Balance zwischen Antworttiefe und Latenz. Volles Tool-Use inklusive parallelem Tool-Calling für leichte agentische Workflows.

OpenAI Version 4-mini Kommerzielle Nutzung erlaubt Dense 200 K Context 06/2024 $1.1 / $4.4 per 1M

Proprietär
Workstation
API
Text
Vision
Instruction-Tuned
Agentic Orchestrator
Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Daten, die über die API übertragen werden, können US-Behörden zugänglich gemacht werden. Lokales Deployment ist nicht möglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	15	49
HTTP Fetch & Extract	75	35	55
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	75	80	77.5
Multilingual Search & Synthesis	80	20	50

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

77.5

Multilingual Search & Synthesis

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 4.42; First Request

MCP: 1; Protocol Latency

Synthesis: 6.85; Response Generation

Total: 73.58; Sum of All Phases

Token: 15560; Input + Output

Cost: $0.0471; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil o4-mini zwar valide Tool-Calls liefert und im Combined-Score tragfähig wirkt, aber der erkannte Halluzinationsbefund das Vertrauen in toolgestützte Antworten für sensible Produktionspfade bricht.

Tool-Execution-Profil

Die Tool-Ausführung ist die klar stärkere Seite dieses Modells. Es produziert valide MCP-konforme Aufrufe und erkennt im Web Search & Tool Selection-Test, der die Wahl zwischen Suche und direktem Fetch ohne expliziten Hinweis prüft, zuverlässig das richtige Werkzeug. Das spricht gegen ein bloß starres Muster. Gleichzeitig fällt die Präzision beim URL-Construction-Test ab: Die Ziel-URL wird häufig brauchbar abgeleitet, aber nicht stabil genug für deterministische Fetch-Pipelines. Das ist kein Planungsfehler, sondern ein Genauigkeitsproblem im letzten Schritt.

Dass ein Retry erforderlich war, wirkt hier eher wie ein Ausführungs- oder Formatproblem im Ablauf als wie ein grundsätzliches Missverständnis der Aufgabe. P1 von 85 bestätigt: Das Modell kann eine Tool-Infrastruktur bedienen. Es braucht aber Guardrails für Replays, Argumentvalidierung und URL-Prüfung vor dem Netzaufruf.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. P2 von 40.83 ist für produktive Synthesis niedrig. Besonders schwach ist die Verdichtung in EU License Research und Multilingual Search & Synthesis. Das Modell holt Informationen oft korrekt ein, transformiert sie aber nicht stabil in belastbare, knappe Ergebnistexte. Für reine Extraktion oder Zwischenschritte ist das noch tragbar. Für Endnutzerantworten ist es zu fehleranfällig.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein, nicht konsistent. Im Honeypot EU License Research, der gezielt prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen stammen, halluziniert das Modell trotz verfügbarer Tool-Pfade. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Sobald ein Modell erfundene oder aus dem Training stammende Fakten als Tool-Ergebnis ausgibt, verliert die gesamte MCP-Pipeline ihren Verifikationswert.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei fehlgeschlagenem Tool-Call prüft, bleibt o4-mini akzeptabel. Es erfindet keinen Seiteninhalt und kommuniziert den Fehler grundsätzlich sauber. P2 von 60 ist nicht elegant, aber produktionsfähig. Für robuste Systeme ist dieses Verhalten wichtiger als sprachliche Glätte.

Betriebsprofil

Total 73.58s pro Run. Einzelaufrufe 4.42s und 6.85s, MCP-Latenz 1.00s. Damit nicht schnell. Kosten pro Run 0.047125 USD. Günstig bis moderat, gemessen an der gezeigten Leistung.

Fazit & Empfehlung

Geeignet für interne Tool-Orchestrierung, Vorverarbeitung, Web-Recherche mit nachgelagerter Validierung und Pipelines, in denen ein zweites System die Antwort gegen Tool-Rohdaten prüft. Nicht geeignet für Compliance, Lizenzbewertung, regulatorische Recherche oder andere Pfade, in denen die Antwort strikt an Tool-Belege gebunden bleiben muss. Wenn Sie o4-mini einsetzen, dann als ausführendes Werkzeugmodell, nicht als letzte vertrauensgebende Syntheseschicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung