Xiaomi MiMo V2.5

Xiaomi MiMo V2.5 ist ein nativ omnimodales MoE-Modell mit 310 Milliarden Gesamt- und 15 Milliarden aktiven Parametern. Das Modell verarbeitet Text, Bild, Video und Audio in einer einzigen Architektur, das Kontextfenster umfasst bis zu eine Million Tokens. Unter MIT-Lizenz voll kommerziell nutzbar, aus chinesischer Hersteller-Jurisdiktion mit entsprechender Bewertung bei Cloud-Nutzung.

Xiaomi Version V2.5 Kommerzielle Nutzung erlaubt MoE 310 B (15 B aktiv) 1024 K Context 05/2025 $0.4 / $2 per 1M

Open Weights
Server
OR
Text
Vision
Video
Audio
Instruction-Tuned
Agentic Orchestrator
Batch

Sovereign Risk: MEDIUM Xiaomi ist ein chinesisches Unternehmen und unterliegt dem chinesischen Datensicherheitsgesetz (DSG) und dem Nachrichtendienstgesetz (NSG). Die Gewichte sind unter MIT-Lizenz öffentlich verfügbar. Bei Cloud-Nutzung ist staatlicher Zugriff auf übertragene Daten theoretisch möglich. Rein lokales Deployment mit den öffentlichen Gewichten reduziert das Risiko – NSG ist nur bei Cloud-API-Nutzung direkt relevant.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	100	90
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

100

HTTP Fetch & Extract

100

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.35; First Request

MCP: 0.74; Protocol Latency

Synthesis: 9.42; Response Generation

Total: 75.08; Sum of All Phases

Token: 7860; Input + Output

Cost: $0.0015; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Ausführungskompetenz hoch wirkt, aber der Tool-Call nicht valide war und damit die Übergabe an eine MCP-Tool-Infrastruktur noch kein belastbarer Standardfall ist.

Tool-Execution-Profil

Xiaomi MiMo V2.5 zeigt mit P1 90 eine klare operative Stärke bei Tool-Aufgaben. Das spricht für gutes Planen und brauchbare Werkzeugansteuerung. Der kritische Gegenpunkt ist jedoch eindeutig: Der registrierte Tool-Call war nicht valide. Für Produktion heißt das nicht, dass das Modell das falsche Werkzeugprinzip wählt, sondern dass die Protokolltreue im entscheidenden Moment nicht zuverlässig genug war.

Zu Web Search & Tool Selection sowie URL Construction & Fetch liegen keine Einzelwerte vor. Deshalb lässt sich nicht sauber belegen, ob das Modell aktiv zwischen Suche und direktem Abruf unterscheidet oder ob es eher einem festen Ausführungsmuster folgt. Aus dem Gesamtbild lässt sich nur ableiten: Es hat offenbar die grundsätzliche Tool-Logik, aber noch keinen Nachweis für deterministische MCP-Konformität. Positiv ist, dass kein Retry erforderlich war. Das spricht eher gegen ein bloßes Formatstolpern und eher für einen einmaligen Validitätsfehler innerhalb einer ansonsten kompetenten Ausführung.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Mit P2 70 arbeitet das Modell brauchbar, aber nicht mit der Präzision, die man für entscheidungsrelevante Verdichtung bevorzugt. Es kann Ergebnisse zusammenführen, neigt aber nicht zu maximal straffer, belastbarer Extraktion. Für Analysten-Assistenz ist das tragbar. Für Compliance- oder Policy-Synthesen ist es noch zu weich.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Test EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, wurde keine Halluzination erkannt. Das ist das wichtigste Vertrauenssignal in diesem Lauf. Das Modell hat die Tool-Grenze also nicht sichtbar überschritten.

Fehlerresilienz

Im Test Tool Failure Handling (404), der die Reaktion auf fehlschlagende Abrufe prüft, hat Xiaomi MiMo V2.5 keinen Seiteninhalt erfunden. Das ist produktionsrelevant gut. Transparente Fehlerkommunikation ist in Tool-Pipelines akzeptabel. Ein Modell, das bei 404 nichts erfindet, bleibt als Orchestrator grundsätzlich vertrauensfähig.

Betriebsprofil

Total 75.08s. Langsam.
Call 1: 2.35s, MCP-Latenz: 0.74s, Call 2: 9.42s.
Kosten/Run: local. Günstig im Betrieb, aber die Laufzeit ist im Verhältnis zur nur guten Gesamtleistung hoch.

Fazit & Empfehlung

Geeignet für lokal betriebene, reasoning-lastige Pipelines mit menschlicher Nachkontrolle, etwa Recherche-Orchestrierung, Vorstrukturierung und mehrstufige Analyse mit großen Kontextfenstern. Nicht die erste Wahl für streng deterministische MCP-Strecken, in denen jeder Tool-Call formal valide sein muss und Synthesen ohne Nacharbeit verwertbar sein sollen. Vor produktivem Rollout braucht es eine harte Validierungsschicht für Tool-Calls und idealerweise ein Schema-Enforcement vor der Tool-Übergabe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Xiaomi MiMo V2.5

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung