Xiaomi MiMo V2.5

Xiaomi MiMo V2.5 ist ein nativ omnimodales MoE-Modell mit 310 Milliarden Gesamt- und 15 Milliarden aktiven Parametern. Das Modell verarbeitet Text, Bild, Video und Audio in einer einzigen Architektur, das Kontextfenster umfasst bis zu eine Million Tokens. Unter MIT-Lizenz voll kommerziell nutzbar, aus chinesischer Hersteller-Jurisdiktion mit entsprechender Bewertung bei Cloud-Nutzung.

Xiaomi Version V2.5 Kommerzielle Nutzung erlaubt MoE 310 B (15 B aktiv) 1024 K Context 05/2025 $0.4 / $2 per 1M

  • Open Weights
  • Server
  • OR
  • Text
  • Vision
  • Video
  • Audio
  • Instruction-Tuned
  • Agentic Orchestrator
  • Batch

Sovereign Risk: MEDIUM Xiaomi ist ein chinesisches Unternehmen und unterliegt dem chinesischen Datensicherheitsgesetz (DSG) und dem Nachrichtendienstgesetz (NSG). Die Gewichte sind unter MIT-Lizenz öffentlich verfügbar. Bei Cloud-Nutzung ist staatlicher Zugriff auf übertragene Daten theoretisch möglich. Rein lokales Deployment mit den öffentlichen Gewichten reduziert das Risiko – NSG ist nur bei Cloud-API-Nutzung direkt relevant.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.35
First Request
MCP
0.74
Protocol Latency
Synthesis
9.42
Response Generation
Total
75.08
Sum of All Phases
Token
7860
Input + Output
Cost
$0.0015
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Ausführungskompetenz hoch wirkt, aber der Tool-Call nicht valide war und damit die Übergabe an eine MCP-Tool-Infrastruktur noch kein belastbarer Standardfall ist.

Tool-Execution-Profil

Xiaomi MiMo V2.5 zeigt mit P1 90 eine klare operative Stärke bei Tool-Aufgaben. Das spricht für gutes Planen und brauchbare Werkzeugansteuerung. Der kritische Gegenpunkt ist jedoch eindeutig: Der registrierte Tool-Call war nicht valide. Für Produktion heißt das nicht, dass das Modell das falsche Werkzeugprinzip wählt, sondern dass die Protokolltreue im entscheidenden Moment nicht zuverlässig genug war.

Zu Web Search & Tool Selection sowie URL Construction & Fetch liegen keine Einzelwerte vor. Deshalb lässt sich nicht sauber belegen, ob das Modell aktiv zwischen Suche und direktem Abruf unterscheidet oder ob es eher einem festen Ausführungsmuster folgt. Aus dem Gesamtbild lässt sich nur ableiten: Es hat offenbar die grundsätzliche Tool-Logik, aber noch keinen Nachweis für deterministische MCP-Konformität. Positiv ist, dass kein Retry erforderlich war. Das spricht eher gegen ein bloßes Formatstolpern und eher für einen einmaligen Validitätsfehler innerhalb einer ansonsten kompetenten Ausführung.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Mit P2 70 arbeitet das Modell brauchbar, aber nicht mit der Präzision, die man für entscheidungsrelevante Verdichtung bevorzugt. Es kann Ergebnisse zusammenführen, neigt aber nicht zu maximal straffer, belastbarer Extraktion. Für Analysten-Assistenz ist das tragbar. Für Compliance- oder Policy-Synthesen ist es noch zu weich.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Test EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, wurde keine Halluzination erkannt. Das ist das wichtigste Vertrauenssignal in diesem Lauf. Das Modell hat die Tool-Grenze also nicht sichtbar überschritten.

Fehlerresilienz

Im Test Tool Failure Handling (404), der die Reaktion auf fehlschlagende Abrufe prüft, hat Xiaomi MiMo V2.5 keinen Seiteninhalt erfunden. Das ist produktionsrelevant gut. Transparente Fehlerkommunikation ist in Tool-Pipelines akzeptabel. Ein Modell, das bei 404 nichts erfindet, bleibt als Orchestrator grundsätzlich vertrauensfähig.

Betriebsprofil

Total 75.08s. Langsam.
Call 1: 2.35s, MCP-Latenz: 0.74s, Call 2: 9.42s.
Kosten/Run: local. Günstig im Betrieb, aber die Laufzeit ist im Verhältnis zur nur guten Gesamtleistung hoch.

Fazit & Empfehlung

Geeignet für lokal betriebene, reasoning-lastige Pipelines mit menschlicher Nachkontrolle, etwa Recherche-Orchestrierung, Vorstrukturierung und mehrstufige Analyse mit großen Kontextfenstern. Nicht die erste Wahl für streng deterministische MCP-Strecken, in denen jeder Tool-Call formal valide sein muss und Synthesen ohne Nacharbeit verwertbar sein sollen. Vor produktivem Rollout braucht es eine harte Validierungsschicht für Tool-Calls und idealerweise ein Schema-Enforcement vor der Tool-Übergabe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.