LLM Model Review
· General · Instruct · Agentic
Mit einem Gesamtscore von 73.83% und dem Speed Profile Badge Real-Time DevOps Expert zeigt Mistral Medium 3.5 sehr klar, was es sein will: ein schnelles, arbeitsnahes Cloud-Modell für produktive Aufgaben, kein philosophischer Langstreckenläufer. Die redaktionell vergebene Einordnung als Generalist mit Instruct-Charakter und agentischer Tendenz passt erstaunlich gut zum Profil: direkt, zügig, oft nützlich, aber nicht immer mit dem letzten Grad an Tiefe. Für ein Server-Modell mit dichter Dense-Architektur und 256K Kontextfenster ist das Ergebnis gut, aber nicht ganz die Machtdemonstration, die man sich von einem Modell dieser Gewichtsklasse automatisch erhofft. Sovereign Risk: LOW — Mistral AI sitzt in Frankreich, die API läuft unter EU-Recht mit EU-Datenhaltung; ein US-CLOUD-Act-Risiko ist hier laut vorliegenden Karten nicht einschlägig.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 0/43 | Stabil | Das Modell lief im Test absolut stabil und zuverlässig. |
| P95-Antwortzeit | 22.97 s | Konsistent | Sehr geringer Tail, kaum Ausreißer. |
Das ist mehr als eine Fußnote. Mistral Medium 3.5 lief über die Mistral-Cloud ohne Aussetzer durch, und genau das ist im API-Alltag oft wertvoller als ein halber Punkt mehr im schönsten Teilscore. Wer Agenten-Workflows oder wiederholte Batch-Aufgaben baut, braucht keine Diva, sondern einen Dienstleister. Hier benimmt sich das Modell erfreulich erwachsen.
Zur Geschwindigkeit gehört aber mehr als das Ausbleiben von Timeouts. Das Leaderboard weist 103.91 Tokens pro Sekunde aus. Zusammen mit dem Badge Real-Time DevOps Expert bedeutet das praktisch: Dieses Modell ist auf zügige, operative Interaktion zugeschnitten, also auf Aufgaben, bei denen man in der Schleife bleibt, Befehle überprüft, Security-Funde gegenliest oder Texte iterativ umbaut. Es ist kein träger Denkpanzer, sondern eher ein gut motorisierter Werkstattwagen.
Architektur und Charakter: Generalist mit Befehlsgehorsam, plus Agenten-Ader
Die Vorab-Klassifikation General, Instruct, Agentic ist hier keine bloße Etikette, sondern ein brauchbarer Interpretationsrahmen. Als Generalist muss Mistral Medium 3.5 in der gesamten Breite bestehen, nicht nur in einer Lieblingsdisziplin. Als Instruct-Modell darf man präzise, eher knappe und direkt aufgabenbezogene Antworten erwarten. Und die agentische Ausrichtung erklärt, warum das Modell in operativen, strukturierbaren Aufgaben oft stärker wirkt als in Aufgaben, die erzählerische Finesse oder didaktische Ausleuchtung verlangen.
Dazu kommt die Modellklasse: Server, also eine Größenordnung, in der deutliche Schwächen nicht mehr mit einem Schulterzucken als “strukturell bedingt” wegmoderiert werden können. Und weil die Architektur Dense ist, gilt die nominelle Kapazität auch als reale Kapazität. Anders gesagt: Hier gibt es keinen MoE-Rabatt in der Erwartungshaltung. Wenn ein Dense-Server-Modell in Teilbereichen nur ordentlich statt exzellent ist, muss man das auch so schreiben.
Genau das ist bei Mistral Medium 3.5 der Fall. Es ist ein sehr fähiges Arbeitsmodell. Aber es wirkt öfter wie ein guter technischer Redakteur mit Zeitdruck als wie der eine Kollege, der den Raum mit Brillanz verstummen lässt.
Code Quality und Security: viel gesehen, nicht alles sauber priorisiert
Die stärkste Seite des Modells liegt dort, wo viele reale Nutzer ihre Rechnung machen: in Code Quality und vor allem in Security-naher Analyse. Der Teilscore von 79.6 im Code-Quality-Audit ist kein Zufall. In den vorliegenden Protokollen identifiziert Mistral Medium 3.5 eine breite Palette von Schwachstellen, darunter SQL Injection, Klartext-Passwörter, Path Traversal, IDOR, Session Fixation, schwache Token-Generierung und unsichere Cookies. Das ist keine blinde Schlagwortsammlung, sondern im Kern eine belastbare Sicherheitsanalyse.
Bemerkenswert ist, dass das Modell im Audit sogar 24 Schwachstellen aufführt, während die Referenzlösung mit 19 arbeitet. Das kann ein Zeichen von Gründlichkeit sein, und meistens ist es das hier auch. Allerdings zeigt sich zugleich eine typische Schwäche dieses Modells: Es sieht viel, priorisiert aber nicht immer mit der letzten Präzision. Der Richter moniert zu Recht, dass etwa Type Juggling beziehungsweise Loose Comparison nicht als wirklich kritische PHP-spezifische Lücke gewichtet wird, obwohl sie praktisch einen direkten Angriffsweg eröffnen kann. Das ist kein Totalausfall. Es ist der Unterschied zwischen “guter Sicherheitsprüfung” und “Sicherheitsprüfung mit scharfem Instinkt”.
Noch wichtiger: Mistral Medium 3.5 liefert im Security-Audit eine brauchbare Tabelle mit den geforderten Spalten, kurzen Begründungen und Fix-Ideen. Was fehlt, ist die Angriffskette. Also nicht nur: Welche Lücken existieren? Sondern: Wie greifen sie ineinander, bis das System fällt? Genau dort trennt sich Security-Kompetenz mit Checklistencharakter von Security-Kompetenz mit Operations-Blick. Das Modell benennt Schwachstellen zuverlässig, erzählt aber nicht überzeugend, wie aus mehreren kleinen Fehlern ein großer Vorfall wird. Für Review und Vorprüfung ist das stark. Für einen finalen Security-Bericht braucht es Nachschärfung.
Der Security-Eindruck insgesamt bleibt trotzdem positiv. Mistral Medium 3.5 halluziniert hier nicht wild herum, sondern bleibt nah am Material. Es ist eher ein Prüfer, der zu viel notiert als einer, der sich Dinge ausdenkt.
CLI und agentische Arbeitsnähe: schnell, strukturiert, plausibel
Der CLI-Teilscore von 87.22 unterstreicht das operative Profil. Auch ohne separate ToolUse-Wertung in dieser Modellzeile zeigt der Benchmark klar, dass Mistral Medium 3.5 in handlungsnahen, systemischen Aufgaben zuhause ist. Das passt zur agentischen Metadaten-Einstufung: Planung, Sequenzierung und praktische Ausführung liegen diesem Modell besser als rhetorische Hochseilakte.
Gerade in diesem Bereich ist die Kombination aus hoher Generierungsgeschwindigkeit und stabiler API ein echter Pluspunkt. Ein Modell, das in DevOps- oder Terminal-nahen Szenarien flott und reproduzierbar antwortet, spart nicht nur Sekunden. Es spart Kontextwechsel, Frustration und die stille Erosion des Vertrauens, die mit jedem Retry beginnt. Mistral Medium 3.5 arbeitet hier wie ein Kollege, dem man die erste Schicht guten Gewissens geben kann.
Reasoning und Logik: korrekt, aber nicht elegant
Beim logischen Schlussfolgern landet Mistral Medium 3.5 bei 65.87. Das ist ordentlich, aber es erklärt auch den Charakter des Modells ziemlich gut. Im Metakognitions-Protokoll zur Wächter-und-Türen-Aufgabe kommt das Modell auf die richtige Lösung. Die Kernlogik sitzt. Es stellt die richtige Frage und zieht die korrekte Konsequenz. Inhaltlich ist das also kein Problem.
Das Problem ist die Form des Denkens. Der Richter beschreibt den Gedankengang als repetitiv, kreisend und strukturell unsauber. Das trifft. Mistral Medium 3.5 denkt hier nicht falsch, sondern umständlich. Es wiederholt Einsichten, verlässt Sackgassen spät und organisiert die eigene Argumentation erst mit Verzögerung. Die finale Antwort ist dann wiederum knapp, fast zu knapp, und verzichtet auf didaktische Klarheit. Das ergibt ein merkwürdiges Bild: intern zu viel Bewegung, extern zu wenig Ausarbeitung.
Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den Tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 65.87%, was dem Niveau anderer Modelle entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.
Das ist ein wichtiger Befund. Gerade weil Mistral Medium 3.5 als Instruct-Modell firmiert, wiegt eine wiederholte Format-Verweigerung schwerer als bei einem notorisch eigenwilligen Spezialisten. Wer exakte Ausgabevorgaben braucht, etwa für Agenten-Pipelines oder strukturierte Prüfketten, muss diese Neigung kennen. Das Modell ist logisch oft brauchbar. Aber es ist nicht immer folgsam, wenn die Form selbst Teil der Aufgabe ist.
Content Transformation: funktional, aber selten brillant
Im Bereich Content Transformation & Adaption erreicht Mistral Medium 3.5 75.5. Das ist solide und in Teilen besser, als die reine Stilwahrnehmung zunächst vermuten lässt. Im vorliegenden Videodrehbuch-Protokoll erfüllt das Modell nahezu alle formalen Anforderungen: deutsche Sprache, klare Analyse-Sektion, transformierter Skriptteil, Zeitmarken, Produktionshinweise, Hook, CTA, sogar ein Easter Egg. Das Problem liegt nicht in der Vollständigkeit, sondern in der Flughöhe.
Die Analyse ist laut Judge zu knapp. Das Skript funktioniert, aber eher als brauchbare Produktionsskizze denn als wirklich psychologisch optimiertes Videoformat. Der Hook ist vorhanden, aber weniger emotional aufgeladen als in der Referenz. Die visuellen Hinweise sind zweckmäßig, aber wenig cineastisch. Das Easter Egg existiert, ist aber passiv statt interaktiv. Anders gesagt: Das Modell liefert die Bauteile, aber nicht immer das Timing, die Dramaturgie und das leichte Übermaß an Zuspitzung, das aus korrektem Content guten Content macht.
Gerade hier sieht man die Spannung zwischen den Tags General, Instruct und Agentic. Mistral Medium 3.5 transformiert zuverlässig und prompttreu. Es inszeniert aber nicht auf Spitzenniveau. Es arbeitet wie ein Produktionsmanager, nicht wie ein Regisseur.
UX Writing und Documentation: nützlich, aber mit merklichem Hang zur Verdichtung
Die Teilwerte von 66.75 im UX Writing und 67.53 in der Dokumentationsqualität markieren die Schwächezone des Modells. Das heißt nicht, dass Mistral Medium 3.5 hier schlecht wäre. Es heißt nur: Für ein Server-Modell dieser Klasse bleibt spürbar Luft nach oben.
Das Muster aus den qualitativen Protokollen ist konsistent. Das Modell trifft den Kern, aber es komprimiert oft zu stark. Wo eine Referenzlösung Nuancen, Begründungen oder kulturell feine Tonlagen ausspielt, liefert Mistral Medium 3.5 lieber eine funktionale Kurzfassung. Das kann im Alltag sogar angenehm sein. Niemand braucht bei jeder Hilfeseite einen Roman. Aber in UX-Texten und guter Dokumentation geht es eben nicht nur um Information, sondern um Führung. Und Führung entsteht oft in genau den Zwischentönen, die dieses Modell zu gerne wegspart.
Der Befund aus der kulturell sensiblen Umschreibung einer Stellenanzeige illustriert das gut. Das Ergebnis ist sauber, deutsch, diskriminierungsfrei und professionell. Aber es verliert laut Judge rund 40 Prozent der inhaltlichen Spezifität, lässt den Begriff Tatkraft fallen und trifft den in Deutschland üblichen HR-Ton nicht ganz so fein wie die Referenz. Brauchbar ist das allemal. Nur eben eher erste gute Fassung als finale Redaktion.
Cultural Intelligence: stark in Compliance, etwas dünn in Nuance
Mit 81.0 im Bereich Cultural Intelligence gehört dieser Teil zu den erfreulicheren Feldern. Mistral Medium 3.5 antwortet in den vorliegenden Fällen sauber auf Deutsch, entfernt toxische oder problematische Formulierungen und hält den kulturellen Rahmen grundsätzlich ein. Gerade die deutsche Sprachführung ist stabil. Das ist keine Selbstverständlichkeit.
Die Einschränkung ist subtiler: Das Modell versteht oft, was entschärft oder umgeschrieben werden soll, aber nicht immer vollständig, wie fein eine kulturell optimale Formulierung in der Zielsprache gebaut sein muss. Im genannten Jobad-Beispiel bleibt die Fassung professionell und verwendbar, verpasst aber einige Signale, die eine wirklich gut kalibrierte deutsche HR-Kommunikation ausmachen. Das ist keine grobe Fehlleistung. Es ist der Unterschied zwischen Übersetzung mit Stilbewusstsein und Redaktion mit Milieugefühl.
Token-Effizienz: erfreulich ökonomisch, mit einer teuren Ausnahme
Über fast alle Module hinweg verhält sich Mistral Medium 3.5 token-ökonomisch. Kein Bereich überschreitet den erwarteten Verbosity-Rahmen. In Cultural Intelligence, UX Writing, Content Transformation und Documentation liegt das Modell nahe am Fleet-Median oder sogar darunter. Für einen Cloud-Dienst ist das eine gute Nachricht, denn knappe Antworten sparen nicht nur Latenz, sondern im API-Alltag bares Geld.
Eine Ausnahme gibt es allerdings: Im CLI Benchmark produziert das Modell durchschnittlich 329 Tokens bei einem Fleet-Median von 204. Das entspricht einem Faktor von 1.61 gegenüber dem Schnitt aller getesteten Modelle. Qualitativ ist das hier kein Drama, zumal der CLI-Score stark ist. Wirtschaftlich ist es dennoch relevant. Wenn ein Cloud-Modell in einem typischen Ops-Szenario deutlich mehr Text ausgibt als der Rest des Feldes, bezahlt man den Gesprächsdrang bei gleicher Aufgabenqualität mit.
API-Kostenprofil
Dieses Modell produziert im CLI-Bereich durchschnittlich 329 Tokens bei einem Fleet-Median von 204. Das entspricht einem Faktor von 1.61 gegenüber dem Schnitt aller getesteten Modelle. Für den praktischen API-Einsatz heißt das: In genau dem Feld, in dem Mistral Medium 3.5 besonders oft sinnvoll wäre, also bei operativen und DevOps-nahen Aufgaben, kann der Output spürbar teurer werden als bei knapperen Konkurrenzmodellen.
Weil in den Leaderboard-Daten für dieses Modell kein belastbarer Preis pro 1K Token eingetragen ist, lässt sich die absolute Kostenseite hier nicht sauber beziffern. Der relative Befund bleibt trotzdem wichtig: schnell ja, aber im CLI-Kontext nicht maximal sparsam.
Datenschutz und Datenhoheit
Für europäische Unternehmen ist Mistral Medium 3.5 in der hier getesteten Form als kommerzielles Cloud-Modell über die Mistral-AI-API datenschutzrechtlich vergleichsweise gut einzuordnen. Laut Provider Card sitzt Mistral AI SAS in Paris, unterliegt EU-Recht beziehungsweise der DSGVO, speichert Daten in der EU und hält sie 30 Tage vor. Ein GDPR DPA ist verfügbar, was für Unternehmen mit formalen Compliance-Anforderungen ein zentraler Punkt ist.
Das berechnete Sovereign Risk liegt bei LOW. Die Begründung ist nüchtern und relevant: europäischer Anbieter, europäische Datenhaltung, keine ausgewiesene Zugriffspflicht nach US CLOUD Act und kein chinesisches NSL-Risiko für die Gewichte. Das ist kein Freibrief für beliebige Datenverarbeitung, aber es ist im Marktvergleich ein echter Standortvorteil. Gerade für deutsche und europäische Organisationen ist das mehr als Marketing. Es ist Governance mit Substanz.
Fazit
Mistral Medium 3.5 ist ein schnelles, stabiles und in der Cloud angenehm verlässliches Arbeitsmodell mit klarer operativer Schlagseite. Die Einstufung als Generalist stimmt, aber seine Persönlichkeit ist unverkennbar: Dieses Modell will Aufgaben lösen, Listen bauen, Schwachstellen finden, Befehle strukturieren und in produktiven Schleifen nützlich sein. In Code, Security und CLI-nahen Szenarien liefert es dafür sehr gute Argumente. In Logik ist es korrekt, aber nicht elegant. In UX, Dokumentation und stilistisch anspruchsvoller Transformation bleibt es häufiger auf dem Niveau “brauchbar bis gut” stehen, wo Spitzenmodelle noch einmal Luft nach oben erzeugen.
Für den Einsatz heißt das: sehr passend für DevOps-nahe Assistenz, Security-Voranalysen, technische Content-Transformation, strukturierte Alltagsaufgaben und agentische Workflows mit menschlicher Aufsicht. Weniger ideal ist es als Endredakteur für Feinschliff, kulturelle Nuance oder didaktisch ausgearbeitete Reasoning-Antworten. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig als zu viel. Das ist ein ehrenwerter Instinkt. Und in der Praxis oft die bessere Macke.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.