MiniMax M2.7

MiniMax M2.7 ist ein chinesisches Frontier-Generalist-Modell mit einem Kontextfenster von 205.000 Tokens für umfangreiche Dokumente und mehrsprachige Anwendungen. Die MoE-Architektur liefert hohe Leistung für allgemeine Sprach- und Reasoning-Aufgaben, das Modell ist als Cloud-Variante verfügbar und auf produktive Anwendungen ausgelegt. Bei Cloud-Nutzung greift die chinesische Jurisdiktion mit den entsprechenden Datenschutzimplikationen.

MiniMax Version m2.7 Kommerzielle Nutzung erlaubt MoE 205 K Context 12/2025 $0.3 / $1.2 per 1M

  • Restricted Weights
  • Frontier
  • OR
  • Text
  • Interactive

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
3.92
First Request
MCP
0.2
Protocol Latency
Synthesis
6.71
Response Generation
Total
65.05
Sum of All Phases
Token
7809
Input + Output
Cost
$0.0048
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am

Deployment-Urteil

Nicht deploy für autonome MCP-Pipelines, weil der Tool-Call nicht durchgängig valide war, ein Retry nötig wurde und die Gesamtleistung mit 50.96 klar zu schwach für verlässliche Produktionsübergabe ausfällt.

Tool-Execution-Profil

MiniMax M2.7 kann einfache, stark eingegrenzte Tool-Pfade ausführen, zeigt aber keine belastbare Werkzeugintelligenz. Beim Test Web Search & Tool Selection, der prüft ob ohne Hinweis web_search statt fetch gewählt wird, fällt es mit P1 35 deutlich ab. Beim Test URL Construction & Fetch, der die korrekte URL-Ableitung und anschließendes Fetch misst, erreicht es dagegen P1 80. Das spricht gegen flexible Tool-Wahl und eher für ein festes Muster: Wenn die Zielstruktur schon klar ist, arbeitet es brauchbar. Wenn es zuerst den richtigen Werkzeugtyp erkennen muss, bricht die Zuverlässigkeit ein.

Dass der Tool-Call am Ende als nicht valide markiert wurde und ein Retry erforderlich war, wirkt hier eher wie ein Protokoll- und Orchestrierungsproblem als wie reines Wissensdefizit. Für eine MCP-Pipeline ist das trotzdem kritisch. Ein Modell darf nicht nur inhaltlich richtig liegen, sondern muss Calls auch beim ersten Versuch formal korrekt erzeugen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. Die P2-Leistung von 43.33 zeigt, dass MiniMax M2.7 extrahierte Inhalte nicht stabil in präzise, belastbare Antworten überführt. Das sieht man besonders bei EU License Research mit P2 20 und bei Multilingual Search & Synthesis mit P2 20. Dagegen funktioniert reine Extraktion aus bereits geholtem Content besser, etwa bei HTTP Fetch & Extract mit P2 80.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Signal gemischt, aber nicht katastrophal. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus dem Training beantwortet werden, wurde keine Halluzination erkannt. Das ist positiv. Der schwache B1-Verifikationszustand und P2 20 zeigen aber, dass es den Tool-Befund nicht sauber absichert oder verdichtet. Es erfindet nicht, aber es verankert auch nicht zuverlässig.

Fehlerresilienz

Beim 404-Test, der transparente Kommunikation bei Tool-Fehlern statt erfundenem Ersatzinhalt misst, bleibt MiniMax M2.7 auf der akzeptablen Seite. P2 60 ist kein starkes Ergebnis, aber entscheidend ist: Es halluziniert trotz Fehler keinen Seiteninhalt. Für Produktion ist das der Mindeststandard, und den erfüllt es hier.

Betriebsprofil

Call 1: 3.92s. Call 2: 6.71s. MCP-Latenz: 0.20s. Total: 65.05s.
Kosten pro Run: $0.0048.
Direkte Einordnung: günstig, aber für die gezeigte Leistung und den Retry-Bedarf zu langsam im End-to-End-Verhalten.

Fazit & Empfehlung

Geeignet höchstens für beaufsichtigte Pipelines mit einfachen Fetch- und Extraktionsschritten, klar vorgegebenen URLs und nachgelagerter Validierung durch ein zweites System. Nicht geeignet für dynamische Tool-Auswahl, Recherche-Workflows, mehrsprachige Synthese oder Compliance-nahe Aufgaben, in denen das Modell selbst entscheiden muss, welches Tool wann einzusetzen ist. Wer eine Tool-Infrastruktur übergeben will, braucht hier zu viele Leitplanken.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.