Magistral Medium · LLM Model Review

Mit einem Gesamtscore von 63,13 Prozent zeigt Magistral Medium sehr klar, was ein Reasoning-Modell in der Server-Klasse mit dichter Transformer-Architektur sein kann und was eben nicht. Das kommerzielle Cloud-Modell von Mistral AI denkt sichtbar länger, schreibt ausführlich und wirkt oft ernsthaft um Präzision bemüht, landet im Benchmark aber zu häufig bei „korrekt gedacht, unvollständig geliefert“. Der Speed-Profile-Badge Interactive DevOps Expert passt nur mit Einschränkungen: Mit 31,67 Tokens pro Sekunde ist das Modell nicht lahm, aber seine langen Antworten und die spürbare Tail-Latenz machen es eher zum nachdenklichen Kollegen als zum nervenstarken Live-Werkzeug. Sovereign Risk: LOW — Mistral AI sitzt in Frankreich, verarbeitet laut Anbieter in der EU und unterliegt nach aktueller Struktur weder dem US CLOUD Act noch einer vergleichbaren chinesischen Zugriffspflicht.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	83.8 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen.

Diese Kopfnoten sind wichtiger, als es der ordentliche Null-Timeout-Befund zunächst vermuten lässt. Magistral Medium bricht nicht weg, und das ist für ein proprietäres Cloud-Modell schon die halbe Miete. Aber in fünf Prozent der Anfragen wartet der Nutzer über 83,8 Sekunden. Für ein auf Deep Thinking optimiertes Modell ist längere Denkzeit kein Makel, sondern Teil des Konzepts. Trotzdem bleibt es in der Praxis ein Unterschied, ob ein Modell gründlich ist oder ob es den Arbeitsfluss regelmäßig aus dem Takt bringt. Magistral Medium ist hier eher das zweite.

Architektur und Charakter: Thinking zuerst, Allrounder erst danach

Die Voreinstufung Thinking, General trifft den Kern ziemlich gut. Magistral Medium ist kein scharf zugeschnittener Coder und kein auf knappe Instruktionsbefolgung getrimmter Chatknecht. Es ist ein Reasoning-Modell für mehrstufiges Schlussfolgern, in der Server-Klasse verortet und als Dense-Modell gebaut. Das heißt auch: Die nominelle Modellkapazität ist vollständig aktiv, hier gibt es keinen MoE-Trick, bei dem nur ein kleiner Teil der Gewichte pro Token arbeitet. Entsprechend darf man Substanz erwarten, nicht nur gute Manieren.

Genau daran muss sich Magistral Medium messen lassen. Ein Server-Modell mit Reasoning-Fokus muss nicht überall glänzen, aber es sollte auf breiter Front belastbare Entscheidungen, saubere Format-Compliance und eine gewisse Exekutionshärte liefern. Der Benchmark zeigt stattdessen ein Modell, das auf der Denkseite oft die richtige Richtung einschlägt, auf der Ausgabeseite aber zu häufig schludert. Der Charakter ist damit klar: eher Analytiker als Vollstrecker.

Performance und Kostenprofil

Der Badge Interactive DevOps Expert signalisiert einen typischen Einsatz für technische Assistenz mit noch interaktivem Anspruch. Dazu passt die reine Generierungsgeschwindigkeit von 31,67 Tokens pro Sekunde grundsätzlich. In der Realität wird dieser Eindruck aber durch zwei Dinge relativiert: den hohen Gesamtausstoß von 103,5K Tokens über den Benchmark und die bereits erwähnte P95-Latenz von 83,8 Sekunden. Das Modell ist also nicht langsam im simplen Sinne. Es ist nur selten ökonomisch.

Für ein kommerzielles Cloud-Modell zählt genau das doppelt, weil jeder überflüssige Absatz auf die Rechnung schlägt. Magistral Medium kostet 1,5 Dollar pro 1 Million Input-Tokens und 7,5 Dollar pro 1 Million Output-Tokens. Das ist kein Luxuspreis, aber auch kein Ausverkauf. Wenn ein Modell dann in einzelnen Modulen deutlich mehr Text produziert als der Flottenschnitt, wird aus stilistischer Breite ein Kostenfaktor.

API-Kostenprofil

Hier zeigt Magistral Medium ein klares Muster. Im Bereich Cultural Intelligence erzeugt das Modell durchschnittlich 1713 Tokens bei einem Fleet-Median von 216. Das entspricht dem 7,93-Fachen des Schnitts aller getesteten Modelle und liegt zugleich bei 1,7-fachem Budget. Im CLI-Benchmark sind es 2862 Tokens gegenüber einem Fleet-Median von 219, also 13,07-mal so viel Text wie der Durchschnitt. Auch wenn das Modul dort formal noch im Budget bleibt, ist das für einen API-Einsatz kein Schönheitsfehler, sondern bares Geld.

Kurz gesagt: Magistral Medium redet gern. Manchmal sogar zu gern für seine eigene Punktzahl.

Reasoning und Logik: richtig gedacht, aber nicht immer richtig geliefert

Für ein Modell mit Thinking-Tag ist dieser Bereich die Visitenkarte. Magistral Medium liefert hier ein gemischtes Bild. Positiv ist zunächst, dass die eigentliche Logik oft stimmt. Im Metakognitions-Test mit dem klassischen Zwei-Wächter-Rätsel kommt das Modell auf die korrekte Lösung. Es versteht die doppelte Inversion sauber und erklärt den Kernmechanismus nachvollziehbar. Das ist keine kleine Leistung, sondern die Mindestbedingung für ein Modell, das mit strukturiertem Denken wirbt.

Der Haken sitzt an anderer Stelle: Magistral Medium verhält sich bei expliziten Formatvorgaben wie ein talentierter Student, der die Frage verstanden hat, aber den Arbeitsauftrag nur halb liest. Im genannten Test fehlten die geforderten <thought>-Tags komplett. Inhaltlich war die Antwort korrekt, formal war sie ein Verstoß gegen die Aufgabe. Das wäre bei einem reinen Instruct-Modell ärgerlich. Bei einem Reasoning-Modell, das seine Stärke aus erklärter Denktiefe ziehen soll, ist es ein deutlich schwererer Makel.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den Tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 56,9 Prozent, was dem eigenen Gesamtniveau entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.

Damit wird das Grundproblem sichtbar. Magistral Medium ist kein dummes Modell. Es ist aber auch kein gehorsames. Wer es in Workflows einsetzt, die exakte Ausgabestrukturen verlangen, muss diesen Eigensinn einpreisen.

Code Quality und Security: brauchbarer Auditor, kein kompromissloser Forensiker

Im Modul Code Quality Audit erreicht Magistral Medium 62,8 Prozent. Das ist für ein allgemeines Reasoning-Modell keine Blamage, aber auch kein Ergebnis, das man mit ernster Security-Arbeit verwechseln sollte. Die Stärken liegen in der grundlegenden Erkennung klassischer Schwachstellen. SQL-Injection, Klartext-Passwörter, schwache Reset-Tokens, CSRF und problematische Cookie-Nutzung erkennt das Modell. Es kann Tabellen sauber strukturieren und liefert konzeptionell richtige Fix-Ideen. Das ist mehr als bloßes Buzzword-Bingo.

Sobald die Aufgabe aber von der Checkliste in die Tiefenanalyse kippt, wird es dünner. In einem Security-Protokoll identifizierte Magistral Medium 16 Schwachstellen, während der Referenzstandard 19 sauber dokumentierte. Es übersah unter anderem hartkodierte Secrets, unsichere Datenbank-Zugangsdaten und eine Header-Problematik nach vorheriger Ausgabe. Dazu kam ein falsches Positiv bei einem angeblichen Open Redirect. Kritischer noch: Session Fixation wurde zu weich bewertet, und eine IDOR-Lücke mit potenziell gravierenden Folgen fehlte ganz. Das ist der Unterschied zwischen „hat Ahnung“ und „hat den Fall im Griff“.

Auch die Remediation bleibt oft auf Flughöhe. Magistral Medium schreibt gern „Prepared Statements verwenden“ oder „password_hash() einsetzen“, liefert aber seltener den konkreten Code, der einem Team wirklich den nächsten Commit spart. Für Audits, Erstbewertungen und Code-Reviews mit menschlicher Nachschärfung ist das noch okay. Für Security-Arbeit im engeren Sinn ist es zu unscharf. Das Modell erkennt Gefahren, aber nicht immer ihre volle Kontur.

CLI und Tool-Nähe: Badge ja, Biss eher begrenzt

Der Badge verspricht technische Interaktivität. Der eigentliche Tool- und CLI-Bereich relativiert das spürbar. Laut Leaderboard liegt der ToolUse Score bei 41,67 Prozent, die Synthesis Quality bei 26,67 Prozent. Das sind keine Werte, die man mit souveräner Agenten-Tauglichkeit verwechseln sollte.

Das passt ins Gesamtbild. Magistral Medium kann in Analyse- und Erklärsituationen hilfreich sein, zeigt aber weniger Härte bei Aufgaben, die exakte Exekution, präzise Verdichtung und unmittelbare operative Verwendbarkeit verlangen. Es erklärt lieber einen Plan, als ihn messerscharf in ein belastbares Kommando zu gießen. Für DevOps-Ideen und technische Strukturierung kann das reichen. Für robuste Tool-Pipelines ist es zu unpräzise.

UX Writing: verständig, aber mit auffälligen Lücken

Im Bereich UX Writing & Microcopy landet Magistral Medium bei 55,33 Prozent. Das ist einer der deutlich schwächeren Bereiche und zugleich ein guter Indikator für das, was dem Modell im Alltag fehlt: disziplinierte Vollständigkeit.

Ein Protokoll zeigt das exemplarisch. Das Modell vereinfachte Sprache sinnvoll, baute eine lesbare Tabelle und traf die Stoßrichtung der Aufgabe. Was fehlte, war ausgerechnet der explizit verlangte Analyse-Schritt. Statt das bestehende UX-Problem zunächst zu sezieren, sprang Magistral Medium direkt zur Optimierung. Dazu kam eine unvollständige Bearbeitung von Schritt 3 eines Workflows: Die eigentliche Aktionskonfiguration wurde unterschlagen, übrig blieb bloß eine Abschlussmeldung. Der Effekt ist typisch für dieses Modell. Es wirkt oft kompetent, bis man prüft, ob wirklich alle Teile der Aufgabe abgedeckt wurden.

Das ist keine Oberflächenkritik. Gute UX-Arbeit lebt davon, dass Mikrotext nicht nur nett klingt, sondern Prozesslogik sauber trägt. Wenn ein Modell genau dort einen Schritt ausspart, ist das kein stilistischer Schönheitsfehler, sondern ein echter Produktmangel.

Documentation Quality: ordentlich im Ansatz, technisch abgeschnitten im Ergebnis

Mit 60,42 Prozent bleibt auch die Dokumentationsqualität im nur mittleren Bereich. Das ist besonders deshalb schade, weil Magistral Medium vom Temperament her eigentlich gut zu längerer Erklärung und strukturiertem Schreiben passt. Wo andere Modelle hektisch abkürzen, bringt es Geduld mit. Nur hilft Geduld wenig, wenn die Antwort am Ende am eigenen Ausgabekontingent zerschellt.

Im Documentation-Quality-Modul überschreitet das Modell das konfigurierte Token-Budget — die Antwort ist unvollständig. Der Abzug im Score resultiert aus der unvollständigen Antwort, nicht aus inhaltlichen Mängeln.

Dieser Truncation-Failure ist mehr als ein technischer Betriebsunfall. Gerade bei Dokumentation ist Vollständigkeit kein Luxus, sondern der ganze Job. Eine halbe Tabelle, eine abgebrochene Liste oder ein nicht zu Ende geführter Leitfaden ist in Teams oft wertlos, selbst wenn die ersten Absätze gut sind. Magistral Medium schreibt hier also mit Ambition, aber nicht immer mit Selbstkontrolle.

Content Transformation: Talent vorhanden, Instruktionsdisziplin nicht

Im Bereich Content Transformation & Adaption erreicht Magistral Medium 60,5 Prozent. Auch hier ist das Bild zwiespältig. Das Modell kann Struktur grundsätzlich erfassen, Formate nachbauen und Inhalte umformen. Es scheitert aber auffällig dann, wenn mehrere Bedingungen gleichzeitig gelten: Sprache, Länge, Analysepflicht, Ton und Produktionsreife.

Das sichtbarste Beispiel ist eine Videoskript-Aufgabe, die ausdrücklich auf Deutsch beantwortet werden sollte. Magistral Medium ignorierte die explizite Sprachanweisung und antwortete auf Englisch. Das ist kein technischer Fehler, sondern eine klare Schwäche im Instruction-Following. In produktiven Umgebungen mit fixer Zielsprache ist so etwas kein Kavaliersdelikt, sondern ein direkter Ausschussfall.

In einer Aufgabe im Content-Transformation-Bereich verletzte das Modell die explizite Sprachvorgabe. Das System verhängte dafür einen automatischen Abzug von 1,5 Punkten auf die Task-Compliance. Die inhaltliche Qualität der Antwort ist damit zweitrangig — die Strafe greift unabhängig davon.

Die Sache wird noch unangenehmer, weil es nicht bei der Sprache blieb. Das Modell übersprang auch die geforderte Analysephase, blieb mit rund 450 Wörtern klar unter der verlangten Länge von 600 bis 900 Wörtern und lieferte ein inhaltlich zu flaches Skript mit schwächerem Hook, dünneren Produktionshinweisen und einem strategisch missverstandenen Easter Egg. Das Sprachversagen ist kein isolierter Ausreißer. Über mehrere Aufgaben im Content-Transformation-Bereich zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es die Sprachvorgabe als erste Bedingung.

Cultural Intelligence: angenehm sensibel, aber verschwenderisch

Mit 72,12 Prozent ist Cultural Intelligence eines der besseren Module von Magistral Medium. Das passt zur Mistral-Herkunft und zur allgemein zivilisierten Tonlage des Modells. In einer Aufgabe zur Umformulierung einer toxisch codierten Stellenanzeige reagierte es sauber: inklusive Sprache, professioneller Ton, keine unnötigen Meta-Kommentare, inhaltlich funktional korrekt. Die Unterschiede zum Referenzstandard lagen eher in Tonphilosophie und idiomatischer Wärme als in groben Fehlern.

Das ist die gute Nachricht. Die schlechte lautet: Magistral Medium löst solche Aufgaben oft mit deutlich mehr Text, als nötig wäre. Im Cultural-Intelligence-Modul stehen 1713 Output-Tokens einem Fleet-Median von 216 gegenüber. Qualität darf ausführlich sein. Aber wenn ein Cloud-Modell fast achtmal so viele Tokens produziert wie der Durchschnitt, ohne im Ergebnis entsprechend davonzuziehen, ist das keine Großzügigkeit, sondern Ineffizienz.

Halluzinationen und Faktentreue

Der vielleicht angenehmste Befund dieses Tests steckt nicht in einem Spitzenwert, sondern in einer Abwesenheit: Über alle Tests hinweg keine nennenswerten Halluzinationen. Magistral Medium erfindet also nicht wild drauflos, wenn ihm etwas fehlt. Das ist gerade bei Security, Dokumentation und Reasoning mehr wert als manches hübsche Formulierungsfeuerwerk.

Datenschutz und Datenhoheit

Für ein kommerzielles Cloud-Modell ist Magistral Medium datenschutzrechtlich vergleichsweise gut aufgestellt. Anbieter ist Mistral AI SAS mit Sitz in Paris, Frankreich; laut Vendor Card gelten EU-GDPR, der Datenstandort liegt in der EU, und ein GDPR-DPA ist verfügbar. Für Unternehmen in Deutschland und Europa ist das ein handfester Vorteil gegenüber US- oder China-Anbietern, weil nach der aktuellen Anbieterstruktur kein CLOUD-Act-Bezug besteht. Die öffentliche Datenspeicherung beträgt 30 Tage. Das berechnete Sovereign Risk liegt bei LOW, begründet durch EU-Sitz, EU-Datenhaltung und die niedrige Provenienz-Risikolage der Modellgewichte. Das separat ausgewiesene Weights-Provenienz-Risiko ist ebenfalls LOW und weicht damit nicht von der Deployment-Situation ab.

Fazit

Magistral Medium ist ein kommerzielles Cloud-Modell von Mistral AI mit klarem Reasoning-Anspruch, und genau so liest es sich auch: nachdenklich, erklärfreudig, oft inhaltlich vernünftig, aber nicht besonders diszipliniert in der letzten Meile. Für ein Thinking-Generalist in der Server-Klasse ist das Endergebnis von 63,13 Prozent zu wenig, um als echter Allround-Tipp durchzugehen. Zu viele Aufgaben leiden an fehlender Format-Compliance, ausufernder Ausgabe oder schlicht unvollständiger Lieferung.

Seine Stärken liegen dort, wo ein Mensch noch am Steuer sitzt: strukturierte Analyse, erste Sicherheitsbewertungen, kulturell sensible Textüberarbeitungen, logisch saubere Erklärungen mit mittlerer Tiefe. Schwächer ist es überall dort, wo exakte Constraint-Treue, knappe API-Ökonomie und sofort verwertbare Tool-Ausgabe zählen. Wer Magistral Medium als Denkpartner für komplexere Aufgaben einsetzen will, bekommt ein ernstzunehmendes Modell mit ordentlicher Faktentreue und ohne nennenswerte Halluzinationen. Wer dagegen ein präzises Arbeitsgerät für automatisierte Pipelines sucht, bekommt zu oft einen klugen Entwurf statt eines belastbaren Ergebnisses. Anders gesagt: Magistral Medium kann denken. Es muss nur noch lernen, pünktlich aufzuhören und die Aufgabe komplett zu Ende zu führen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.