GPT-4o Mini

GPT-4o Mini ist OpenAIs kompaktes Einstiegsmodell der GPT-4o-Familie, ausgelegt auf niedrige Kosten und schnelle Antwortzeiten. Mit einem Kontextfenster von 128.000 Tokens verarbeitet das Modell Text- und Bildeingaben, ist ausschliesslich über die OpenAI-API verfügbar und eignet sich für alltägliche Aufgaben wie Klassifikation, einfache Textgenerierung und kosteneffiziente Automatisierung.

OpenAI Version 2024-07-18 Kommerzielle Nutzung erlaubt Dense 128 K Context 10/2023 $0.15 / $0.6 per 1M

  • Proprietär
  • Server
  • API
  • Text
  • Vision
  • Instruction-Tuned
  • Real-Time

Sovereign Risk: MEDIUM OpenAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei API-Nutzung verlassen Eingabedaten das lokale Netz – behördlicher Zugriff auf verarbeitete Daten ist rechtlich möglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
1.87
First Request
MCP
1.16
Protocol Latency
Synthesis
3.56
Response Generation
Total
39.51
Sum of All Phases
Token
8006
Input + Output
Cost
$0.0018
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung belastbar ist, die Synthese aber zu oft unpräzise bleibt und damit bei produktiven Entscheidungs-Pipelines ein Vertrauensrisiko erzeugt. Der kombinierte Befund ist nur moderat, obwohl Tool-Calls valide waren und kein Retry nötig war.

Tool-Execution-Profil

GPT-4o Mini verhält sich auf MCP-Ebene solide. Die Tool-Calls sind valide, protokollkonform und ohne Nachbesserung ausführbar. Das ist für produktive Verkettung wichtiger als sprachliche Eleganz.

Bei der Werkzeugwahl zeigt das Modell aber nur begrenzte operative Intelligenz. Im Test Web Search & Tool Selection, der prüft, ob ohne expliziten Hinweis web_search statt fetch gewählt wird, erreicht es zwar brauchbare Ausführung, aber die nachgelagerte Qualität bricht stark ein. Das spricht nicht für robuste Situationsdiagnose, sondern eher für funktionales Abarbeiten. Beim Test URL Construction & Fetch, der die korrekte URL-Ableitung aus eigenem Wissen misst, arbeitet es ebenfalls brauchbar. Das Muster ist klar: Wenn der Pfad erkennbar ist, liefert es. Wenn die Wahl des richtigen Werkzeugs selbst Teil der Aufgabe ist, sinkt die Verlässlichkeit.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die P2-Leistung ist der Schwachpunkt des Modells. Sehr gut ist HTTP Fetch & Extract, also strukturierte Extraktion aus realem Seiteninhalt. Schwach ist dagegen die eigentliche Verdichtung in offenen Rechercheaufgaben. Besonders Web Search & Tool Selection und Multilingual Search & Synthesis zeigen, dass das Modell gefundene Inhalte nicht stabil in präzise, entscheidungstaugliche Antworten überführt.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, halluziniert es nicht. Das ist ein positives Vertrauenssignal. Gleichzeitig bleibt der Content-Verification-State nur auf B2 bei P2 40. Das Modell bleibt also eher innerhalb des abgerufenen Materials, verdichtet es aber nicht präzise genug. Der gesetzte Halluzinationsbefund im Gesamtlauf ist deshalb als Sicherheitsrisiko zu lesen: Sobald ein Modell in einer Tool-Pipeline erfundene Fakten als Ergebnisrahmen ausgibt, wird die Infrastruktur als Ganzes fraglich.

Fehlerresilienz

Beim 404-Test, der transparente Reaktion auf fehlschlagende Tool-Calls misst, erfindet GPT-4o Mini keinen Seiteninhalt. Das ist akzeptables Produktionsverhalten. Die Kommunikation des Fehlschlags ist nicht optimal verdichtet, aber sie bleibt ehrlich. Für Betriebspipelines ist das deutlich wichtiger als eine glatte Antwort.

Betriebsprofil

Total 39.51s. Einzelaufrufe 1.87s und 3.56s. MCP-Latenz 1.16s. Schnell genug für interaktive Tool-Pipelines, nicht für enge Echtzeitketten. Kosten pro Run: $0.001794. Sehr günstig im Verhältnis zur gebotenen Tool-Execution, aber nur angemessen bei tolerierbarer Syntheseunsicherheit.

Fazit & Empfehlung

Geeignet für kostensensitive MCP-Pipelines mit klaren Werkzeugpfaden, extraktiver Verarbeitung und nachgelagerter Validierung. Nicht geeignet als alleinige Instanz für Compliance, mehrsprachige Recherche-Synthese oder dynamische Agentenflüsse, in denen das Modell selbst Werkzeugwahl und Ergebnisverdichtung zuverlässig beherrschen muss. Wenn Sie GPT-4o Mini einsetzen, dann als günstigen Executor mit enger Guardrail-Führung, nicht als vertrauenswürdigen Synthese-Kern.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.