o3-mini

o3-mini

o3-mini ist OpenAIs kompaktes Reasoning-Modell mit internem Chain-of-Thought, spezialisiert auf Mathematik, Coding und STEM-Aufgaben. Das Modell arbeitet mit einem Kontextfenster von 200.000 Tokens und bietet drei einstellbare Reasoning-Stufen für die Balance zwischen Antworttiefe, Latenz und Kosten. Ausschliesslich über die OpenAI-API verfügbar.

OpenAI Version 2025-01-31 Kommerzielle Nutzung erlaubt Dense 200 K Context 10/2023 $1.1 / $4.4 per 1M

Proprietär
Workstation
API
Text
Instruction-Tuned
Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Daten, die über die API übertragen werden, können US-Behörden zugänglich gemacht werden. Lokales Deployment ist nicht möglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.19; First Request

MCP: 1.51; Protocol Latency

Synthesis: 7.51; Response Generation

Total: 67.24; Sum of All Phases

Token: 12158; Input + Output

Cost: $0.0379; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung verlässlich ist und die Calls valide sind, die Synthese aber mit erkannter Halluzination nicht durchgehend belastbar genug für unkontrollierte Output-Pfade bleibt.

Tool-Execution-Profil

o3-mini kann einer MCP-gestützten Pipeline grundsätzlich Werkzeuge anvertrauen. Die Tool-Calls waren valide, Retry war nicht nötig, und mit P1 90 zeigt das Modell eine klare operative Stärke. Besonders wichtig: Beim Web-Search-and-Tool-Selection-Test, der prüft, ob ohne Hinweis search statt fetch gewählt wird, traf es die Werkzeugwahl sauber. Das spricht gegen ein starres Muster und für echte Situationsentscheidung. Beim URL-Construction-Test, der die korrekte Ableitung einer Ziel-URL aus Wissen und den anschließenden Fetch misst, war es brauchbar, aber nicht deterministisch genug für fragile Pfade. Das Modell erkennt also meist, welches Werkzeug es braucht, ist aber bei der exakten Adresskonstruktion weniger präzise als bei der Tool-Auswahl selbst.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur mittel. P2 55.83 ist der schwache Teil dieses Profils. Das Modell beschafft Informationen besser, als es sie konsistent und eng am Befund zusammenfasst. Das sieht man auch an Web Search & Tool Selection und Multilingual Search & Synthesis, wo die Tool-Nutzung stark bleibt, die Verdichtung aber deutlich abfällt. Für Pipelines mit nachgelagerter Validierung ist das tolerierbar. Für direkte Nutzerantworten auf Basis von Tool-Output ist es zu locker.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau diese Versuchung bei aktuellen Lizenzrestriktionen prüft, bleibt es hinreichend auf der Web-Quelle. Content-Verification-State A und keine Halluzination in diesem Test sind ein gutes Vertrauenssignal. Gleichzeitig bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, beschädigt es das Vertrauen in die gesamte Infrastruktur.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit einem fehlschlagenden Tool-Call prüft, reagierte o3-mini produktionsgerecht. Es halluzinierte keinen Seiteninhalt und kommunizierte den Fehler offen. Das ist für reale Tool-Ketten entscheidend, weil Ausfälle in Retrieval- oder Fetch-Schritten erwartbar sind.

Betriebsprofil

Total 67.24s pro Run. Tool-Call-Latenzen 2.19s und 7.51s, MCP-Latenz 1.51s. Eher langsam. Kosten 0.037873 pro Run. Günstig bis moderat für ein Thinking-Modell, gemessen an der Ausführungsstärke besser als an der Synthesequalität.

Fazit & Empfehlung

Geeignet für recherchierende, mehrstufige Pipelines mit klaren Guardrails, strukturierter Nachprüfung und separater Antwort-Politur. Gut für Tool-Routing, Web-Recherche und fehlertolerante Orchestrierung. Nicht die erste Wahl für Compliance-nahe oder kundensichtbare Endantworten, wenn das Modell selbst die finale Verdichtung liefern soll. Deployen, wenn ein zweiter Kontrollschritt die Synthese absichert. Ohne diesen Schritt nicht als letzte Instanz einsetzen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung