o4-mini

o4-mini ist OpenAIs kompaktes Reasoning-Modell mit nativem Vision-Eingang für Bilder, Diagramme und Screenshots. Das Modell verarbeitet Text und Bild, arbeitet mit einem Kontextfenster von 200.000 Tokens und bietet drei einstellbare Reasoning-Stufen für die Balance zwischen Antworttiefe und Latenz. Volles Tool-Use inklusive parallelem Tool-Calling für leichte agentische Workflows.

OpenAI Version 4-mini Kommerzielle Nutzung erlaubt Dense 200 K Context 06/2024 $1.1 / $4.4 per 1M

  • Proprietär
  • Workstation
  • API
  • Text
  • Vision
  • Instruction-Tuned
  • Agentic Orchestrator
  • Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Daten, die über die API übertragen werden, können US-Behörden zugänglich gemacht werden. Lokales Deployment ist nicht möglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
4.42
First Request
MCP
1
Protocol Latency
Synthesis
6.85
Response Generation
Total
73.58
Sum of All Phases
Token
15560
Input + Output
Cost
$0.0471
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

· Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil o4-mini zwar valide Tool-Calls liefert und im Combined-Score tragfähig wirkt, aber der erkannte Halluzinationsbefund das Vertrauen in toolgestützte Antworten für sensible Produktionspfade bricht.

Tool-Execution-Profil

Die Tool-Ausführung ist die klar stärkere Seite dieses Modells. Es produziert valide MCP-konforme Aufrufe und erkennt im Web Search & Tool Selection-Test, der die Wahl zwischen Suche und direktem Fetch ohne expliziten Hinweis prüft, zuverlässig das richtige Werkzeug. Das spricht gegen ein bloß starres Muster. Gleichzeitig fällt die Präzision beim URL-Construction-Test ab: Die Ziel-URL wird häufig brauchbar abgeleitet, aber nicht stabil genug für deterministische Fetch-Pipelines. Das ist kein Planungsfehler, sondern ein Genauigkeitsproblem im letzten Schritt.

Dass ein Retry erforderlich war, wirkt hier eher wie ein Ausführungs- oder Formatproblem im Ablauf als wie ein grundsätzliches Missverständnis der Aufgabe. P1 von 85 bestätigt: Das Modell kann eine Tool-Infrastruktur bedienen. Es braucht aber Guardrails für Replays, Argumentvalidierung und URL-Prüfung vor dem Netzaufruf.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. P2 von 40.83 ist für produktive Synthesis niedrig. Besonders schwach ist die Verdichtung in EU License Research und Multilingual Search & Synthesis. Das Modell holt Informationen oft korrekt ein, transformiert sie aber nicht stabil in belastbare, knappe Ergebnistexte. Für reine Extraktion oder Zwischenschritte ist das noch tragbar. Für Endnutzerantworten ist es zu fehleranfällig.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein, nicht konsistent. Im Honeypot EU License Research, der gezielt prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen stammen, halluziniert das Modell trotz verfügbarer Tool-Pfade. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Sobald ein Modell erfundene oder aus dem Training stammende Fakten als Tool-Ergebnis ausgibt, verliert die gesamte MCP-Pipeline ihren Verifikationswert.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei fehlgeschlagenem Tool-Call prüft, bleibt o4-mini akzeptabel. Es erfindet keinen Seiteninhalt und kommuniziert den Fehler grundsätzlich sauber. P2 von 60 ist nicht elegant, aber produktionsfähig. Für robuste Systeme ist dieses Verhalten wichtiger als sprachliche Glätte.

Betriebsprofil

Total 73.58s pro Run. Einzelaufrufe 4.42s und 6.85s, MCP-Latenz 1.00s. Damit nicht schnell. Kosten pro Run 0.047125 USD. Günstig bis moderat, gemessen an der gezeigten Leistung.

Fazit & Empfehlung

Geeignet für interne Tool-Orchestrierung, Vorverarbeitung, Web-Recherche mit nachgelagerter Validierung und Pipelines, in denen ein zweites System die Antwort gegen Tool-Rohdaten prüft. Nicht geeignet für Compliance, Lizenzbewertung, regulatorische Recherche oder andere Pfade, in denen die Antwort strikt an Tool-Belege gebunden bleiben muss. Wenn Sie o4-mini einsetzen, dann als ausführendes Werkzeugmodell, nicht als letzte vertrauensgebende Syntheseschicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.