GPT-4o Mini

GPT-4o Mini ist OpenAIs kompaktes Einstiegsmodell der GPT-4o-Familie, ausgelegt auf niedrige Kosten und schnelle Antwortzeiten. Mit einem Kontextfenster von 128.000 Tokens verarbeitet das Modell Text- und Bildeingaben, ist ausschliesslich über die OpenAI-API verfügbar und eignet sich für alltägliche Aufgaben wie Klassifikation, einfache Textgenerierung und kosteneffiziente Automatisierung.

OpenAI Version 2024-07-18 Kommerzielle Nutzung erlaubt Dense 128 K Context 10/2023 $0.15 / $0.6 per 1M

Proprietär
Server
API
Text
Vision
Instruction-Tuned
Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	80	40	56
HTTP Fetch & Extract	80	100	90
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	80	15	50.8
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	15	57.5

Name

Combined

EU License Research

HTTP Fetch & Extract

100

Tool Failure Handling (404)

Web Search & Tool Selection

50.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

57.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.87; First Request

MCP: 1.16; Protocol Latency

Synthesis: 3.56; Response Generation

Total: 39.51; Sum of All Phases

Token: 8006; Input + Output

Cost: $0.0018; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung belastbar ist, die Synthese aber zu oft unpräzise bleibt und damit bei produktiven Entscheidungs-Pipelines ein Vertrauensrisiko erzeugt. Der kombinierte Befund ist nur moderat, obwohl Tool-Calls valide waren und kein Retry nötig war.

Tool-Execution-Profil

GPT-4o Mini verhält sich auf MCP-Ebene solide. Die Tool-Calls sind valide, protokollkonform und ohne Nachbesserung ausführbar. Das ist für produktive Verkettung wichtiger als sprachliche Eleganz.

Bei der Werkzeugwahl zeigt das Modell aber nur begrenzte operative Intelligenz. Im Test Web Search & Tool Selection, der prüft, ob ohne expliziten Hinweis web_search statt fetch gewählt wird, erreicht es zwar brauchbare Ausführung, aber die nachgelagerte Qualität bricht stark ein. Das spricht nicht für robuste Situationsdiagnose, sondern eher für funktionales Abarbeiten. Beim Test URL Construction & Fetch, der die korrekte URL-Ableitung aus eigenem Wissen misst, arbeitet es ebenfalls brauchbar. Das Muster ist klar: Wenn der Pfad erkennbar ist, liefert es. Wenn die Wahl des richtigen Werkzeugs selbst Teil der Aufgabe ist, sinkt die Verlässlichkeit.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die P2-Leistung ist der Schwachpunkt des Modells. Sehr gut ist HTTP Fetch & Extract, also strukturierte Extraktion aus realem Seiteninhalt. Schwach ist dagegen die eigentliche Verdichtung in offenen Rechercheaufgaben. Besonders Web Search & Tool Selection und Multilingual Search & Synthesis zeigen, dass das Modell gefundene Inhalte nicht stabil in präzise, entscheidungstaugliche Antworten überführt.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, halluziniert es nicht. Das ist ein positives Vertrauenssignal. Gleichzeitig bleibt der Content-Verification-State nur auf B2 bei P2 40. Das Modell bleibt also eher innerhalb des abgerufenen Materials, verdichtet es aber nicht präzise genug. Der gesetzte Halluzinationsbefund im Gesamtlauf ist deshalb als Sicherheitsrisiko zu lesen: Sobald ein Modell in einer Tool-Pipeline erfundene Fakten als Ergebnisrahmen ausgibt, wird die Infrastruktur als Ganzes fraglich.

Fehlerresilienz

Beim 404-Test, der transparente Reaktion auf fehlschlagende Tool-Calls misst, erfindet GPT-4o Mini keinen Seiteninhalt. Das ist akzeptables Produktionsverhalten. Die Kommunikation des Fehlschlags ist nicht optimal verdichtet, aber sie bleibt ehrlich. Für Betriebspipelines ist das deutlich wichtiger als eine glatte Antwort.

Betriebsprofil

Total 39.51s. Einzelaufrufe 1.87s und 3.56s. MCP-Latenz 1.16s. Schnell genug für interaktive Tool-Pipelines, nicht für enge Echtzeitketten. Kosten pro Run: $0.001794. Sehr günstig im Verhältnis zur gebotenen Tool-Execution, aber nur angemessen bei tolerierbarer Syntheseunsicherheit.

Fazit & Empfehlung

Geeignet für kostensensitive MCP-Pipelines mit klaren Werkzeugpfaden, extraktiver Verarbeitung und nachgelagerter Validierung. Nicht geeignet als alleinige Instanz für Compliance, mehrsprachige Recherche-Synthese oder dynamische Agentenflüsse, in denen das Modell selbst Werkzeugwahl und Ergebnisverdichtung zuverlässig beherrschen muss. Wenn Sie GPT-4o Mini einsetzen, dann als günstigen Executor mit enger Guardrail-Führung, nicht als vertrauenswürdigen Synthese-Kern.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

GPT-4o Mini

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung