MiniMax M3

MiniMax M3 ist ein multimodales MoE-Modell mit einem Kontextfenster von einer Million Tokens und Fokus auf agentische Workflows, Coding und Tool-Use. Von 428 Milliarden Gesamtparametern sind pro Token nur 23 Milliarden aktiv, das Modell verarbeitet Text, Bild und Video als Input. Die chinesische Herkunft erfordert bei Cloud-Nutzung eine separate Bewertung des Datenschutz-Risikos.

MiniMax Version m3 Kommerzielle Nutzung erlaubt MoE 428 B (23 B aktiv) 1000 K Context 05/2026 $0.3 / $1.2 per 1M

Open Weights
Frontier
OR
Text
Vision
Video
Vision
Interactive

Sovereign Risk: HIGH MiniMax ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das Modell wurde als open-weight veröffentlicht, bleibt aber aus souveränitätsbezogener Sicht hochriskant, wenn Daten oder Workflows in der chinesischen Jurisdiktion verarbeitet werden.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	80	88
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	35	57.5
Multilingual Search & Synthesis	100	20	60

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

57.5

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 5.28; First Request

MCP: 0.82; Protocol Latency

Synthesis: 20.54; Response Generation

Total: 159.85; Sum of All Phases

Token: 10037; Input + Output

Cost: $0.0063; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark und protokolltreu ist, aber die festgestellte Halluzination bei nur mittlerer Synthesetreue das Vertrauen in inhaltlich sensible Tool-Pipelines begrenzt.

Tool-Execution-Profil

MiniMax M3 verhält sich auf der Ausführungsebene produktionsnah. Die Tool-Calls sind valide, MCP-konform und ohne Retry durchgelaufen. Das spricht gegen ein Formatproblem und für stabiles Tooling-Verhalten. Besonders stark ist das Modell dort, wo es die Werkzeugwahl selbst erkennen muss: Beim Web Search & Tool Selection-Test, der prüft, ob ohne Hinweis search statt fetch gewählt wird, trifft es die richtige Entscheidung sicher. Das zeigt echte Tool-Intelligenz statt starrem Call-Schema.

Weniger verlässlich ist es beim URL-Construction-Test, der die Ziel-URL aus Eigenwissen ableiten und anschließend korrekt abrufen lässt. Hier arbeitet es brauchbar, aber nicht präzise genug für deterministische Pipelines mit strikten URL-Anforderungen. Das Muster ist klar: Wenn das Problem in der Wahl des Werkzeugs liegt, ist M3 stark. Wenn es vor dem Tool-Call eigene Fakten präzise konstruieren muss, sinkt die Verlässlichkeit.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. Die P2-Leistung zeigt, dass MiniMax M3 gefundene Inhalte oft korrekt zusammenzieht, aber nicht konstant sauber priorisiert oder präzise verdichtet. Das sieht man vor allem beim Multilingual Search & Synthesis-Test, der sprachübergreifende Recherche mit deutscher Ausgabe verlangt: Die Recherche gelingt, die Endsynthese bricht jedoch deutlich ein. Für Pipelines, in denen das Modell mehr aggregieren als nur zitieren soll, ist das eine operative Schwäche.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, bleibt es im verifizierten Tool-Ergebnis. Content-Verification-State A und keine Halluzination sind ein starkes Vertrauenssignal. Gleichzeitig bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko: Sobald ein Modell in einer Tool-Kette erfundene Fakten als Ergebnis ausgibt, wird nicht nur eine Antwort schlechter, sondern die Verlässlichkeit der gesamten Infrastruktur untergraben.

Fehlerresilienz

Beim Tool Failure Handling (404)-Test, der transparentes Verhalten bei fehlgeschlagenem Abruf misst, reagiert MiniMax M3 akzeptabel. Es halluziniert keinen Seiteninhalt trotz Fehler und kommuniziert den Fehlschlag nachvollziehbar. Das ist für Produktion entscheidend, weil die Pipeline den Fehler dann korrekt weiterverarbeiten kann.

Betriebsprofil

5.28s erster Call, 20.54s zweiter Call, 159.85s total. Für die gezeigte Leistung langsam. MCP-Latenz 0.82s ist unkritisch. Kosten pro Run 0.006320 USD. Für ein Frontier-Agentenmodell günstig.

Fazit & Empfehlung

Geeignet für agentische Pipelines mit klaren Tool-Grenzen, Web-Recherche, Fehlerweitergabe und kontrollierter Extraktion. Nicht geeignet für Compliance-nahe oder mehrsprachige Synthese-Pipelines, in denen jede verdichtete Aussage belastbar aus Tool-Ergebnissen ableitbar sein muss. Deployen, wenn die Orchestrierung stark ist und eine nachgelagerte Verifikation existiert. Nicht als unbeaufsichtigter Synthese-Endpunkt einsetzen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

MiniMax M3

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung