MiniMax M3

MiniMax M3 ist ein multimodales MoE-Modell mit einem Kontextfenster von einer Million Tokens und Fokus auf agentische Workflows, Coding und Tool-Use. Von 428 Milliarden Gesamtparametern sind pro Token nur 23 Milliarden aktiv, das Modell verarbeitet Text, Bild und Video als Input. Die chinesische Herkunft erfordert bei Cloud-Nutzung eine separate Bewertung des Datenschutz-Risikos.

MiniMax Version m3 Kommerzielle Nutzung erlaubt MoE 428 B (23 B aktiv) 1000 K Context 05/2026 $0.3 / $1.2 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Vision
  • Video
  • Vision
  • Interactive

Sovereign Risk: HIGH MiniMax ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das Modell wurde als open-weight veröffentlicht, bleibt aber aus souveränitätsbezogener Sicht hochriskant, wenn Daten oder Workflows in der chinesischen Jurisdiktion verarbeitet werden.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
5.28
First Request
MCP
0.82
Protocol Latency
Synthesis
20.54
Response Generation
Total
159.85
Sum of All Phases
Token
10037
Input + Output
Cost
$0.0063
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Vision

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark und protokolltreu ist, aber die festgestellte Halluzination bei nur mittlerer Synthesetreue das Vertrauen in inhaltlich sensible Tool-Pipelines begrenzt.

Tool-Execution-Profil

MiniMax M3 verhält sich auf der Ausführungsebene produktionsnah. Die Tool-Calls sind valide, MCP-konform und ohne Retry durchgelaufen. Das spricht gegen ein Formatproblem und für stabiles Tooling-Verhalten. Besonders stark ist das Modell dort, wo es die Werkzeugwahl selbst erkennen muss: Beim Web Search & Tool Selection-Test, der prüft, ob ohne Hinweis search statt fetch gewählt wird, trifft es die richtige Entscheidung sicher. Das zeigt echte Tool-Intelligenz statt starrem Call-Schema.

Weniger verlässlich ist es beim URL-Construction-Test, der die Ziel-URL aus Eigenwissen ableiten und anschließend korrekt abrufen lässt. Hier arbeitet es brauchbar, aber nicht präzise genug für deterministische Pipelines mit strikten URL-Anforderungen. Das Muster ist klar: Wenn das Problem in der Wahl des Werkzeugs liegt, ist M3 stark. Wenn es vor dem Tool-Call eigene Fakten präzise konstruieren muss, sinkt die Verlässlichkeit.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. Die P2-Leistung zeigt, dass MiniMax M3 gefundene Inhalte oft korrekt zusammenzieht, aber nicht konstant sauber priorisiert oder präzise verdichtet. Das sieht man vor allem beim Multilingual Search & Synthesis-Test, der sprachübergreifende Recherche mit deutscher Ausgabe verlangt: Die Recherche gelingt, die Endsynthese bricht jedoch deutlich ein. Für Pipelines, in denen das Modell mehr aggregieren als nur zitieren soll, ist das eine operative Schwäche.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, bleibt es im verifizierten Tool-Ergebnis. Content-Verification-State A und keine Halluzination sind ein starkes Vertrauenssignal. Gleichzeitig bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko: Sobald ein Modell in einer Tool-Kette erfundene Fakten als Ergebnis ausgibt, wird nicht nur eine Antwort schlechter, sondern die Verlässlichkeit der gesamten Infrastruktur untergraben.

Fehlerresilienz

Beim Tool Failure Handling (404)-Test, der transparentes Verhalten bei fehlgeschlagenem Abruf misst, reagiert MiniMax M3 akzeptabel. Es halluziniert keinen Seiteninhalt trotz Fehler und kommuniziert den Fehlschlag nachvollziehbar. Das ist für Produktion entscheidend, weil die Pipeline den Fehler dann korrekt weiterverarbeiten kann.

Betriebsprofil

5.28s erster Call, 20.54s zweiter Call, 159.85s total. Für die gezeigte Leistung langsam. MCP-Latenz 0.82s ist unkritisch. Kosten pro Run 0.006320 USD. Für ein Frontier-Agentenmodell günstig.

Fazit & Empfehlung

Geeignet für agentische Pipelines mit klaren Tool-Grenzen, Web-Recherche, Fehlerweitergabe und kontrollierter Extraktion. Nicht geeignet für Compliance-nahe oder mehrsprachige Synthese-Pipelines, in denen jede verdichtete Aussage belastbar aus Tool-Ergebnissen ableitbar sein muss. Deployen, wenn die Orchestrierung stark ist und eine nachgelagerte Verifikation existiert. Nicht als unbeaufsichtigter Synthese-Endpunkt einsetzen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.