LLM Model Review
Aktualisiert am · Instruction-Tuned · Agentic Orchestrator
Mit einem Gesamtscore von 77,89% präsentiert sich Xiaomi MiMo V2.5 Pro als ungewöhnlich vollständiges Frontier-Modell: ein agentisch ausgerichteter Allrounder mit Coding-Biss, starker Dokumentationsdisziplin und einem klaren Hang zu strukturierter Arbeit statt Show. Der Speed-Profile-Badge Batch Tool Expert passt dabei erstaunlich gut. Dieses Modell arbeitet nicht wie ein Sprinter, sondern wie ein Projektleiter, der erst denkt, dann liefert. Sovereign Risk: HIGH — Xiaomi unterliegt als Anbieter chinesischem Recht nach PIPL, CSL, DSL und dem Nachrichtendienstgesetz; bei Cloud-Nutzung bleibt damit ein belastbares Drittland- und Zugriffsrisiko bestehen.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 3/43 | Sporadisch | Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Bei einem Cloud-Open-Weights-Modell ist das kein Schönheitsfehler des Setups, sondern ein direktes API- und Endpoint-Risiko. |
| P95-Antwortzeit | 119.73 s | Problematisch | Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. In fünf Prozent aller Anfragen wartete der Nutzer fast zwei Minuten. Für interaktive Agentenketten ist das spürbar zu viel. |
Architektur und Einordnung
Die vergebene Kategorisierung trifft den Charakter von Xiaomi MiMo V2.5 Pro ziemlich präzise. Als General- und Instruct-Modell soll es breit einsetzbar sein und Befehle sauber befolgen. Als Thinking-Optional-Modell unterstützt es erweitertes Nachdenken per API, lief im Benchmark aber bewusst im Standardmodus ohne aktiviertes Thinking-Budget. Das ist wichtig, weil der Test damit nicht die theoretisch maximale Denktiefe misst, sondern das Verhalten, das ein normaler API-Nutzer tatsächlich bekommt. Dass die Antwortzeiten trotzdem nicht immer flink sind, ist für diese Architektur kein Widerspruch. Solche Modelle leisten oft intern mehr Planungsarbeit, als die sichtbare Token-Zahl vermuten lässt.
Entscheidend ist aber die kuratierte Einordnung als Agentic / Orchestration, Frontier und MoE. Frontier heißt: höchste Erwartungsklasse. Agentisch heißt: Stärken bei Planung, Struktur, Tool-Flows und Synthese sind Kernkompetenz, keine nette Zugabe. Und MoE, also Mixture of Experts, heißt hier: Die rohe Zahl von 1,02 Billionen Parametern klingt nach Übermacht, relevant sind aber die 42 Milliarden aktiven Parameter pro Schritt. Das ist immer noch groß, aber nicht magisch. Xiaomi MiMo V2.5 Pro wirkt im Benchmark genau so: nicht allwissend, nicht unfehlbar, aber in vielen Disziplinen erstaunlich präzise zusammengesetzt.
Hinzu kommt der multimodale Anspruch. Das Modell verarbeitet laut Card Text, Bild, Video und Audio nativ. CrucibleMark testet hier jedoch überwiegend Text- und Tool-Verhalten. Das Review beleuchtet also nur einen Teil seines tatsächlichen Könnens. Wer aus diesen Ergebnissen auf die gesamte Vision-Language-Qualität schließen will, urteilt mit halbem Material.
Performance-Profil: schnell genug, aber kein Echtzeit-Tier
Xiaomi MiMo V2.5 Pro läuft hier als Cloud Open-Weights-Modell via OpenRouter. Diese Einordnung ist Pflichtlektüre für die Geschwindigkeit. Die gemessenen 30,6 Tokens pro Sekunde sind kein abstrakter Wert des Modells im luftleeren Raum, sondern ein Benchmark der bereitgestellten Cloud-Infrastruktur samt Netzwerkweg. Solche Zahlen sind immer auch ein Infrastruktururteil über den Provider-Pfad. Der Badge Batch Tool Expert sagt deshalb mehr als nur „mittel schnell“: Das Modell ist für Werkzeugketten, längere Arbeitsaufträge und nicht zeitkritische Sessions gebaut. Es will Aufgaben sauber abarbeiten, nicht in Echtzeit dazwischenfunken.
Dazu passt die durchschnittliche Aufgabendauer von 51,91 Sekunden. Für längere Dokumentation, Sicherheitsanalyse oder Skriptumbauten ist das akzeptabel. Für eine Chat-Oberfläche, in der man zehnmal pro Minute korrigierend eingreift, wird es rasch zäh. Vor allem die P95-Zeit von 119,73 Sekunden ist der Haken im Holz. Wenn der Arbeitsfluss steht, helfen auch gute Antworten nur begrenzt.
Code Quality: fast exzellent, aber nicht chirurgisch
Im Code-Quality-Audit erreicht Xiaomi MiMo V2.5 Pro 78,32%. Das ist für ein Modell mit Coder-Tag und agentischem Fokus ein gutes, aber nicht makelloses Ergebnis. Besonders stark ist die Sicherheitsanalyse: Im vorliegenden Protokoll identifiziert das Modell 18 von 19 erwarteten Schwachstellen, trennt Schweregrade sinnvoll und liefert praxisnahe Fixes. Die fünf impliziten, also nicht sofort sichtbaren Lücken trifft es sogar genau. Das ist keine Kleinigkeit. Viele Modelle sehen die großen Löcher und stolpern über die feinen Risse im Fundament. Xiaomi MiMo V2.5 Pro stolpert hier nicht.
Gerade im Security-Kontext zeigt sich die Stärke der MoE-Architektur in Verbindung mit agentischer Ausrichtung. Das Modell arbeitet systematisch, baut Tabellen korrekt auf, priorisiert und argumentiert mit technischer Ernsthaftigkeit. Seine Vorschläge sind nicht bloß korrekt klingende Kosmetik, sondern in den Protokollen überwiegend umsetzbar. Wenn ein Modell in einer Schwachstellenliste nicht nur Alarm ruft, sondern die richtigen Türen markiert, verdient das Respekt.
Ganz ohne Makel bleibt es dennoch nicht. Im Security-Beispiel fehlt eine eigenständige Zeile für eine separate Redirect-Header-Injection beziehungsweise die sauber getrennte Behandlung eines Reset-Tokens ohne Ablaufzeit. Das ist kein Totalausfall, aber eben der Unterschied zwischen sehr gutem Auditor und pedantischem Revisionsprofi. Hinzu kommt die Praxisstabilität im Modul: Die Log-Auszüge zeigen 2 Timeouts in 5 Code-Quality-Tests und eine modulare P95 von 268,72 Sekunden. Für Security-Audits ist das unerquicklich. Ein Modell, das Sicherheitslücken findet, aber gelegentlich selbst aus dem Takt fällt, sendet ein gemischtes Signal.
Logik und Reasoning: klug, diszipliniert, etwas zu brav
Im Bereich Logical Reasoning steht Xiaomi MiMo V2.5 Pro bei 77,65%. Das ist kein Blendwerk, sondern solide Denkarbeit. Das Modell löst klassische Logikaufgaben korrekt, erklärt verständlich und bleibt in Deutsch sauber auf Spur. Besonders aufschlussreich ist das Metacognition-Protokoll: Die geforderten <thought>-Tags wurden verwendet, die Lösung des Zwei-Wächter-Problems war richtig, die Begründung nachvollziehbar. Nur bei der expliziten Aufforderung, alternative Ansätze auszuführen, blieb das Modell etwas konservativ. Es liefert die kanonische Lösung, aber nicht die ganze Familie möglicher Herleitungen.
Das passt zur Einstufung als Thinking-Optional-Modell. Ohne aktivierten erweiterten Denkmodus wirkt Xiaomi MiMo V2.5 Pro nicht gehetzt, aber auch nicht maximal explorativ. Es denkt ausreichend tief, nur selten luxuriös. Für viele Praxisaufgaben ist das sogar die bessere Tugend. Ein Modell, das jeden Nagel mit einer philosophischen Vorlesung beantwortet, ist im Alltag anstrengend. Xiaomi MiMo V2.5 Pro bleibt näher an der Aufgabe als an seiner eigenen Selbstdarstellung.
Documentation Quality und Synthese: eine der erwachseneren Disziplinen des Modells
Die stärkste Einzelwertung im Tabellenumfeld ist Documentation Quality mit 83,63%. Das ist kein Zufall. Xiaomi MiMo V2.5 Pro schreibt nicht spektakulär, aber mit Ordnungssinn. Gerade bei komplexeren Informationsumformungen wirkt es wie ein Modell, das Strukturen ernst nimmt: Abschnitte, Prioritäten, nachvollziehbare Übergänge, brauchbare Tabelle statt semantischem Nebel. In agentischen Workflows ist das Gold wert, weil dort nicht jede Antwort für Menschen, sondern oft für den nächsten Verarbeitungsschritt geschrieben wird.
Auch die Synthesis Quality von 90,0% unterstreicht dieses Profil. Das Modell kann Material zusammenziehen, verdichten und in verwertbare Form bringen. Genau das erwartet man von einem Agentic-Orchestrator. Er muss nicht jeden Untertask mit maximaler Eleganz lösen, aber er muss aus verstreuten Teilen ein stabiles Ganzes bauen. Xiaomi MiMo V2.5 Pro kann das. Es wirkt weniger wie ein virtuoser Solist als wie eine gute Redaktion unter Deadline: nüchtern, belastbar, selten verspielt.
Content Transformation: stark in der Produktion, schwächer in der Meta-Ebene
Im Modul Content Transformation & Adaption kommt Xiaomi MiMo V2.5 Pro auf 76,18%. Das Ergebnis spiegelt sehr genau den Charakter des Modells. Wenn es um die eigentliche Umformung geht, also etwa aus einer trockenen Vorlage ein sprechbares, produktionsreifes Video-Skript zu machen, liefert es überzeugend. Im vorliegenden Beispiel erzeugt es ein verwendbares Tutorial mit Timing, Regiehinweisen, Screen-Cues, Hook, Pattern Interrupt, CTA und Easter Egg. Das ist praxisnah und deutlich näher an echter Produktion als an Schulaufsatz.
Der Haken liegt in der Meta-Arbeit davor. Die Aufgabe verlangte zuerst eine explizite Analyse fehlender Elemente. Das Modell benennt aber nur drei große Probleme, statt die Lücken systematisch zu zerlegen. Es baut also das Haus besser, als es den Bauplan kritisiert. In vielen Redaktionen wäre das halb so schlimm. Im Benchmark kostet es Punkte, zu Recht.
In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 900 Wörtern deutlich. Gemessen wurden 1281 Wörter, also 142% des Limits. Das System verhängte dafür einen automatischen Abzug von 20% beziehungsweise 16,72 Punkten auf den erzielten Score. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Das ist nicht bloß ein Schönheitsfehler, sondern ein klarer Constraint-Verstoß. Wer mit festen Formatgrenzen arbeitet, etwa für Sprechertexte, Kampagnen-Slots oder CMS-Felder, bekommt hier einen Warnhinweis in Rot.
UX Writing und Cultural Intelligence: korrekt, höflich, nicht immer mit letzter Nuance
Mit 76,61% im UX Writing und 71,72% in Cultural Intelligence liegt Xiaomi MiMo V2.5 Pro in einem Bereich, den man als professionell, aber nicht brillant bezeichnen kann. Die Protokolle zeigen ein Modell, das toxische oder unsaubere Ausgangstexte zuverlässig glättet, inklusive Tendenz zu neutralerer Sprache und korrektem Deutsch. Das ist die Pflicht, und die erfüllt es. Die Kür, also die wirklich feine Tonarbeit, gelingt nicht immer.
Ein schönes Beispiel ist die Umformung einer problematischen Stellenausschreibung. Das Modell beseitigt toxische Metaphern und entschärft Geschlechterbias, greift aber eher zu generischem Konzernsprech als zu präziser, einladender Neufassung. Der Judge moniert zu Recht, dass Formulierungen wie „Wir wünschen uns“ oder eine motivierende Energie-Komponente nicht sauber getroffen werden. Xiaomi MiMo V2.5 Pro ist hier eher korrekt als elegant. Es liefert den sauberen Hemdkragen, aber nicht den guten Schnitt.
CLI und Tool-Verhalten: Planung gut, faktische Tool-Treue nicht gut genug
Der CLI-Benchmark mit 84,34% ist stark und bestätigt, dass Xiaomi MiMo V2.5 Pro in strukturierten, technischen Arbeitsabläufen zuhause ist. Genau hier spielen Instruct-Fähigkeit, Coder-Hintergrund und agentische Planung zusammen. Das Modell kann Abläufe formulieren, Befehlslogik nachvollziehen und Aufgaben so zerlegen, dass sie maschinen- und menschenlesbar bleiben. Für DevOps-nahe Assistenz ist das ein ernstzunehmendes Profil.
Weniger erfreulich ist der ToolUse Score von 44,17%. Und hier wird es kritisch, weil nicht bloß einzelne Details fehlten, sondern Halluzinationen dokumentiert wurden. In drei Tool-Use-Aufgaben generierte das Modell Inhalte, die nicht aus dem tatsächlich abgerufenen Werkzeugergebnis stammten, sondern erfunden waren. Der Score wurde deshalb jeweils durch eine Halluzinationskappe begrenzt. Für content-kritische Aufgaben wie Recherche, Faktenberichte oder agentische Reports ist das ein disqualifizierendes Signal.
Diese Halluzinationen sind gerade bei einem Modell mit Use-Case Agentic / Orchestration gravierender als bei einem reinen Chat-Allrounder. Ein Orchestrator muss nicht jeden Subtask perfekt selbst ausführen, aber er muss den Output von Tools sauber respektieren. Wenn das Modell Daten aus einem Tool-Lauf mit eigener Fantasie überschreibt, wird aus Assistenz schnell Fiktion. Das ist im Unterhaltungstext harmlos, im Berichtswesen brandgefährlich.
Security und Halluzinationen: zweigeteilte Persönlichkeit
Man muss Xiaomi MiMo V2.5 Pro zugutehalten, dass es in klassischer Code- und Sicherheitsanalyse stark auftritt. Schwachstellen erkennen, priorisieren, Fixes formulieren: ja, das kann es. Gerade deshalb wirken die Tool-Halluzinationen umso störender. Das Modell ist also kein notorischer Faktenromantiker, aber es hat eine erkennbare Trennlinie zwischen internem Analysevermögen und externer Tool-Treue.
Für die Praxis heißt das: Als Security-Reviewer für gelieferten Quellcode oder als strukturierter Auditor ist Xiaomi MiMo V2.5 Pro gut einsetzbar. Als autonomer Recherche- oder Reporting-Agent, der Werkzeugergebnisse unverfälscht weiterreichen muss, braucht es zwingend Kontrollmechanismen. Man sollte dieses Modell nicht allein mit einer Fakten-Pipeline an die Leine lassen und dann überrascht sein, wenn es unterwegs Ausschmückungen erfindet.
API-Kostenprofil
Xiaomi MiMo V2.5 Pro ist günstig bepreist mit 0,435 Dollar pro 1 Million Input-Tokens und 0,87 Dollar pro 1 Million Output-Tokens. Der Preis allein erzählt aber nur die halbe Wahrheit. Das Modell ist deutlich gesprächiger als der Benchmarkschnitt. Im CLI-Bereich produziert es durchschnittlich 1723 Tokens bei einem Fleet-Median von 287. Das entspricht einem Faktor von 6,0 gegenüber dem Schnitt aller getesteten Modelle. Im Code-Quality-Bereich sind es 7803 Tokens bei einem Fleet-Median von 2317, also 3,37-fach. Auch UX Writing mit 3106 zu 1438 Tokens, Documentation Quality mit 5462 zu 2838 und Cultural Intelligence mit 630 zu 220 Tokens liegen deutlich darüber.
Das ist kein Qualitätslob. Es ist ein Effizienzthema. Xiaomi MiMo V2.5 Pro löst viele Aufgaben gut, produziert dafür aber oft erheblich mehr Text als nötig. Für API-Einsatz bedeutet das trotz günstigem Tarif proportional höhere Kosten und längere Laufzeiten bei identischem Nutzwert. Anders gesagt: billig pro Token ist nicht dasselbe wie billig pro erledigter Aufgabe.
Datenschutz und Datenhoheit
Datenschutzrechtlich ist Xiaomi MiMo V2.5 Pro kein unbeschriebenes Blatt, sondern ein Modell mit klarer geopolitischer Handschrift. Der berechnete Sovereign Risk liegt bei HIGH, weil Entwickler und Anbieter Xiaomi in Beijing, China sitzen und damit chinesischem Recht nach PIPL, CSL und DSL sowie dem Nachrichtendienstgesetz unterliegen. Für Nutzer aus Deutschland und Europa bedeutet das ein belastbares Drittlandrisiko. Nicht als diffuse Sorge, sondern als konkrete Rechtslage.
Die Model- und Vendor-Daten nennen keine verifizierte Datenresidenz für den Cloud-Betrieb, bei der Vendor Card steht als Datenstandort N/A. Die angegebene Datenspeicherung liegt bei 0 Tagen, was gut klingt, aber ohne belastbare Provider-Transparenz nicht dieselbe Beruhigung liefert wie eine sauber dokumentierte europäische Verarbeitungskette. Besonders relevant für Unternehmen: Ein GDPR-DPA ist nicht verfügbar. Für Organisationen mit echter DSGVO-Pflicht ist das kein Randaspekt, sondern ein potenzielles Ausschlusskriterium im produktiven Einsatz.
Das Weights-Provenienz-Risiko liegt bei MEDIUM. Die Gewichte sind unter MIT-Lizenz offen verfügbar, also kommerziell sauber nutzbar. Das reduziert die Lizenzhürde erheblich. Die eigentliche Compliance-Frage entsteht erst durch die Nutzung über Cloud-Routen. Zur konkreten Deployment-Infrastruktur lagen hier keine verifizierten Provider-Daten jenseits des genutzten API-Pfads via OpenRouter vor.
Fazit
Xiaomi MiMo V2.5 Pro ist ein bemerkenswert erwachsenes Frontier-Modell mit 42 Milliarden aktiven Parametern in einer MoE-Architektur, 1024K Kontextfenster, Trainings-Cutoff 2025-05 und Release vom 22. April 2026. Es denkt ordentlich, schreibt strukturiert, dokumentiert stark und zeigt in Code- sowie Security-Aufgaben echtes Format. Als Cloud-Open-Weights-Modell via OpenRouter ist es zudem preislich attraktiv. Das Modell hat Charakter, und zwar den eines ruhigen, fleißigen Spezialisten für längere Arbeitsketten.
Aber dieser Charakter hat zwei Sollbruchstellen. Erstens die Zuverlässigkeit: 3 Timeouts in 43 Tests und ein P95 knapp an der Zweiminutenmarke sind für unbeaufsichtigte produktive Agenten kein Vertrauensbeweis. Zweitens die Tool-Treue: Drei dokumentierte Halluzinationsfälle im Tool-Einsatz sind für agentische Recherche- und Berichtssysteme ein ernstes Warnsignal. Gerade weil Xiaomi MiMo V2.5 Pro als Orchestrator gedacht ist, wiegt dieser Fehler schwerer als bei einem bloßen Chatmodell.
Meine Empfehlung fällt deshalb klar aus. Sehr gut geeignet ist Xiaomi MiMo V2.5 Pro für Code-Reviews, Sicherheitsanalysen, technische Dokumentation, strukturierte Synthese und längere Assistenz-Workflows mit menschlicher Aufsicht. Bedingt geeignet ist es für interaktive Chat-Nutzung, weil die Tail-Latenz den Fluss spürbar bremst. Nicht ohne Absicherung geeignet ist es für faktenkritische Tool-Pipelines, autonome Recherche-Agenten und alle Umgebungen, in denen Tool-Output unverändert und verlässlich weitergereicht werden muss. Xiaomi MiMo V2.5 Pro ist kein Blender. Aber es ist ein Modell, dem man beim Denken eher trauen darf als beim freien Nacherzählen von Werkzeugergebnissen.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.