Mistral Small 3.1 · LLM Model Review

Mit einem Gesamtscore von 72,34 Prozent tritt Mistral Small 3.1 als das auf, was seine Metadaten versprechen: ein Generalist mit klarer Instruct-Prägung, gebaut als 24B-Dense-Modell in der Workstation-Klasse. Es antwortet schnell, hält sich meist an die Aufgabe und kostet in der Mistral-AI-Cloud fast schon lächerlich wenig. Aber es ist kein kleines Genie, sondern eher ein disziplinierter Angestellter mit Hang zur Eile: stark im Takt, nicht immer in der Tiefe. Sovereign Risk: LOW — Mistral AI ist ein französischer Anbieter mit EU-Datenhaltung, DSGVO-Regime und ohne Anwendbarkeit des US CLOUD Act.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	14.73 s	Konsistent	Sehr geringer Tail, kaum Ausreißer.

Das ist für ein kommerzielles Cloud-Modell keine Nebensache, sondern die halbe Miete. Mistral Small 3.1 wurde über die Mistral-AI-API betrieben, also vollständig in der Hersteller-Cloud. Dort liefert es eine bemerkenswert saubere Zuverlässigkeitsbilanz: keine Timeouts, keine zähen Ausreißer im Langschwanz der Latenz. Wer mit Agenten, Batch-Jobs oder interaktiven Assistenten arbeitet, bekommt hier keinen Diva-Endpunkt, sondern einen Dienst, der im Test schlicht funktionierte.

Architektur und Profil: Generalist mit Instruct-Reflexen

Die Vorab-Klassifikation General, Instruct passt erstaunlich präzise. Mistral Small 3.1 ist kein Thinking-Modell, das lange innere Monologe ausrollt, und auch kein Coder mit Tunnelblick auf Syntax. Es ist ein breit einsetzbarer Allrounder, der auf direkte Befehlsausführung optimiert wurde. Genau das sieht man in den Ergebnissen: gute Format-Disziplin, ordentliche sprachliche Steuerbarkeit, brauchbare Logikleistung, aber nur begrenzte Lust auf die letzte analytische Meile.

Dass es sich um ein Dense-Modell handelt, ist hier mehr als ein technischer Fußnotenpunkt. Bei 24 Milliarden Parametern ist die gesamte Kapazität aktiv. Das schafft Berechenbarkeit. Es gibt keine Expertenschaltung, die je nach Prompt glänzt oder stolpert. Entsprechend wirkt das Modell im Benchmark ziemlich konsistent. Für ein Workstation-Modell ist das eine faire, teils sogar starke Vorstellung. Gegen schwere Frontier-Modelle fehlt ihm trotzdem jene Reserve, die schwierige Aufgaben nicht nur richtig, sondern elegant macht.

Performance, Tempo und Kosten

Der Leaderboard-Eintrag weist Mistral Small 3.1 mit dem Speed Profile „Real-Time DevOps Expert“ aus. Das ist ein Badge, das weniger Marketing als Gebrauchsanweisung ist: Dieses Modell ist auf reaktive, zügige Arbeit ausgelegt. Nicht auf philosophische Tiefe, sondern auf Antworten, die im Arbeitsfluss bleiben.

Die nackte Zahl dazu ist exzellent: 171,37 Tokens pro Sekunde. Für ein Cloud-Modell dieser Klasse ist das sehr schnell. Noch wichtiger ist die Einordnung: Der Preis liegt bei 0,10 Dollar pro 1 Million Input-Tokens und 0,30 Dollar pro 1 Million Output-Tokens. Der komplette Benchmark kostet laut Leaderboard 0,0162 Dollar. Das ist keine Rundungsdifferenz, aber fast. Wer viele, kleine bis mittlere Aufgaben mit engem Budget fahren muss, bekommt hier ein seltenes Paket aus Durchsatz, niedriger Latenz und echter Nutzbarkeit.

Auch die Token-Effizienz fällt positiv auf. Kein Modul überschreitet den erwartbaren Verbosity-Rahmen. Im Gegenteil: Das Modell verhält sich insgesamt token-ökonomisch. Selbst dort, wo es etwas ausführlicher wird, bleibt es unterhalb kritischer Kosten- oder Latenzsignale. Für einen Cloud-Einsatz ist das ein stiller, aber wichtiger Vorteil. Ein Modell, das korrekt antwortet und dabei nicht unnötig redet, respektiert am Ende auch die Rechnung.

Code Quality: brauchbar, aber nicht auditfest

Im Modul Code Quality erreicht Mistral Small 3.1 67,72 Prozent, und die qualitativen Protokolle zeigen ziemlich klar, warum das weder schlecht noch wirklich überzeugend ist. Das Modell erkennt viele klassische Schwachstellen zuverlässig. SQL Injection, Plaintext-Passwörter, Session Fixation, Path Traversal, schwache Token-Erzeugung, Type Juggling und CSRF sieht es. Die Tabelle ist sauber formatiert, die Sprache präzise, die Antwort strukturell verwertbar. Für einen ersten Security-Sweep ist das nützlich.

Das Problem beginnt dort, wo aus einer Checkliste ein Audit werden soll. Im vorliegenden Protokoll identifiziert Mistral Small 3.1 effektiv nur rund 15 von 19 relevanten Schwachstellen. Es übersieht unter anderem hardcodierte Secrets, hart verdrahtete Datenbank-Zugangsdaten, eine Header-Injection-Variante und ein Reset-Token ohne Ablaufzeit. Noch gravierender ist die Priorisierung: Die lose API-Key-Prüfung per == bewertet das Modell nur als Medium, wo der Goldstandard sie als kritisch einstuft. Genau an solchen Stellen trennt sich „kennt die Vokabel“ von „versteht den Schaden“.

Auch bei den Fixes zeigt sich dieser Unterschied. Die vorgeschlagenen Gegenmaßnahmen sind oft richtig, aber nicht gehärtet. Beim API-Key bleibt es bei ===, der Hinweis auf hash_equals() fehlt. Bei Path Traversal werden basename() und Whitelist erwähnt, aber kein robuster realpath()-Check gegen Verzeichnisgrenzen. Das ist kein Totalschaden. Es ist nur eben die Sorte Antwort, die einem Junior hilft, aber keinen Pentest-Bericht ersetzt.

Mistral Small 3.1 ist damit im Security-Kontext nützlich als schneller Vorfilter. Wer damit produktionsnahe Prüfungen oder Priorisierungen vornehmen will, sollte jedes Severity-Rating misstrauisch gegenlesen. Das Modell erkennt viel. Es gewichtet nicht immer klug genug.

Reasoning und Logik: korrekt, aber mit wenig Glanz

Im Bereich Logical Reasoning steht am Ende ein Wert von 68,49 Prozent. Das ist solide, und die Logik-Protokolle bestätigen einen typischen Mistral-Charakter: Die Kernlösung stimmt oft, aber der Weg dorthin ist nicht besonders elegant. Im gezeigten Wächter-Rätsel findet das Modell die richtige Frage, erklärt korrekt, warum man anschließend die entgegengesetzte Tür wählen muss, und arbeitet beide Fälle sauber durch. Das Fundament steht.

Was fehlt, ist didaktische Qualität. Der Judge moniert zu Recht eine gewisse Kreisbewegung in der Erklärung: Das Modell wiederholt Teile des Gedankengangs, statt ihn sauber zu staffeln. Es liefert keine starke Verifikationstabelle, keinen allgemeineren Schluss über selbstreferenzielle Fragen, keine robuste Abstraktion des Prinzips. Wer nur die Lösung will, bekommt sie. Wer verstehen will, warum diese Klasse von Rätseln generell so funktioniert, muss sich den Rest selbst dazudenken.

Für die Kategorie Instruct ist das kein Schock. Solche Modelle tendieren dazu, Anweisungen direkt auszuführen und zügig zum Ergebnis zu springen. Genau diese Tugend kann bei Reasoning zur Schwäche werden. Mistral Small 3.1 denkt nicht falsch. Es denkt nur selten schön.

Content Transformation: starkes Handwerk, aber nicht immer zügellos kontrolliert

Mit 78,94 Prozent gehört Content Transformation & Adaption zu den stärkeren Feldern des Modells. Das ist kein Zufall. Instruct-Modelle mit gutem Sprachgefühl können hier glänzen, weil sie Strukturvorgaben, Tonalität und Zielgruppenwechsel effizient umsetzen. Das qualitative Protokoll zur Videoskript-Aufgabe zeigt eine erstaunlich erwachsene Leistung: komplette Dramaturgie, Zeitmarken, Produktionshinweise, Hook, Pattern Interrupt, CTA, sogar ein Easter Egg. Das ist nicht nur korrekt, sondern praktisch brauchbar.

Dabei fällt auf, dass Mistral Small 3.1 seine Stärke eher in der Umsetzungsenergie als in der feinen Stiltheorie hat. Der Judge bescheinigt dem Skript Produktionsreife, kritisiert aber kleinere stilistische Abweichungen gegenüber dem Goldstandard. Das ist ein gutes Zeichen. Wer an solchen Aufgaben nur noch über die Form des Mehrwerts streitet, hat die eigentliche Aufgabe bereits gewonnen.

Ganz ohne Makel bleibt das Modul dennoch nicht. In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern deutlich. Gemessen wurden 380 Wörter, also 152 Prozent des Limits. Das System verhängte dafür einen automatischen Abzug von 20 Prozent beziehungsweise 16,40 Punkten auf den erreichten Teilscore. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Das ist kein Lapsus, den man wegmoderieren sollte. Gerade bei Instruct-Modellen erwartet man, dass sie glasklare Längenvorgaben nicht zuerst opfern.

UX Writing: verständig, aber zu brav

Im Modul UX Writing & Microcopy landet Mistral Small 3.1 bei 61,61 Prozent. Das ist einer der sichtbar schwächeren Bereiche des Gesamtbilds. Schlecht ist die Arbeit nicht. Im Gegenteil: Das qualitative Protokoll bescheinigt klare Struktur, saubere Analyse zentraler UX-Probleme, psychologisch richtige Optimierungsideen und konkrete Verbesserungen. Aber es fehlt der letzte Schliff.

Der Richter nennt einige Punkte, die sinnbildlich für das Modell stehen: weniger umfassende Problemanalyse als der Referenztext, fehlende Metriken, zu wenig Validierungsrahmen, stellenweise formeller Ton statt stärkerer Nutzeransprache. Vor allem aber wirkt die Antwort nützlich, nicht inspiriert. Mistral Small 3.1 versteht, was schiefläuft. Es repariert auch brauchbar. Nur hebt es die Lösung selten auf das Niveau, auf dem UX-Texte nicht nur korrekt, sondern spürbar besser werden.

Das ist eine wiederkehrende Signatur dieses Modells. Es kann die Mechanik. Es hat aber nicht immer das Gespür für den letzten Millimeter. Bei Microcopy ist genau dieser Millimeter oft der Unterschied zwischen „verständlich“ und „wirksam“.

Documentation Quality: ordentlich im Ausbau, nicht spektakulär im Ansatz

Mit 72,46 Prozent zeigt Mistral Small 3.1 in der Dokumentationsqualität ein stimmiges Mittelfeld-plus. Die Token-Nutzung liegt hier mit durchschnittlich 2794 Tokens über dem Fleet-Median von 2272, aber immer noch im grünen Bereich und weit unter dem Budget. Das Modell investiert also etwas mehr Text in Erklärung und Struktur, ohne auszuufern.

Das passt zum Charakter des Systems. Dokumentation gelingt ihm dann gut, wenn die Aufgabe klar ist und die nötige Struktur explizit abgefragt wird. Was ihm eher fehlt, ist jene editorische Schärfe, die aus einer korrekten Dokumentation eine exzellente macht: Priorisierung, saubere Verdichtung, Blick für die Stelle, an der ein Leser tatsächlich stolpert. Mistral Small 3.1 schreibt lieber vollständig als brillant. Das ist oft vernünftig. Es ist nur kein Qualitätswunder.

Cultural Intelligence: europäisch geerdet und sprachlich sauber

Im Modul Cultural Intelligence erreicht das Modell 77,84 Prozent und bestätigt damit eine der plausibleren Erwartungen an ein Mistral-Modell aus Frankreich. Im vorliegenden Beispiel arbeitet es vollständig auf Deutsch, entfernt toxische oder unzeitgemäße Formulierungen zuverlässig und überführt einen problematischen Jobtext in eine deutlich inklusivere Sprache. Das gelingt ohne Sprachmischung und ohne peinlichen Moralton.

Interessant ist, wo der Judge noch Luft sieht: idiomatischere Formulierungen für deutschsprachige HR-Kontexte, etwas klarere Struktur, eine präzisere Übertragung von Eigenschaften wie Eigeninitiative oder Tatkraft. Das sind keine groben Patzer, sondern Fragen des Feinsinns. Für die Praxis heißt das: Mistral Small 3.1 ist hier sehr brauchbar, gerade in europäischen Sprachräumen. Es spricht die Sprache, aber nicht immer die beste Version ihrer sozialen Nuancen.

CLI und operative Präzision

Der CLI-Benchmark liegt bei 86,27 Prozent und gehört damit zu den besten Bereichen des Modells. Das ist bemerkenswert, weil Mistral Small 3.1 eben kein dediziertes Coder-Modell ist. Offensichtlich profitiert es hier von seiner Instruct-Ausrichtung: klare Aufgaben, präzise Formate, direkte Befehlsableitung. Genau das kann es.

Der Speed-Profile-Badge „Real-Time DevOps Expert“ wirkt an dieser Stelle nicht übertrieben. Natürlich ersetzt ein gutes CLI-Ergebnis keine tiefgreifende Systemanalyse. Aber für Shell-nahe Aufgaben, operative Hilfestellung und strukturierte DevOps-Anfragen liefert das Modell ein glaubwürdiges Profil. Es ist schnell, ausreichend präzise und offenbar stabil genug, um in interaktiven Workflows nicht zum Bremsklotz zu werden.

Halluzinationen und Vertrauensfrage

Halluzinationen

Hier sitzt der heikelste qualitative Makel des gesamten Reviews. In tooluse001 wurde eine Halluzination erkannt: Das Modell generierte Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten, sondern erfunden waren. Der P2-Score wurde deshalb durch einen Halluzinations-Cap begrenzt. Für content-kritische Aufgaben wie Recherche, Faktenberichte oder toolgestützte Synthese ist das kein Schönheitsfehler, sondern ein Alarmsignal.

Gerade weil Mistral Small 3.1 sonst oft diszipliniert wirkt, wiegt dieser Befund schwer. Ein Modell, das in normalen Schreib- oder Transformationsaufgaben sauber arbeitet, aber bei Tool-gebundener Faktentreue ausschert, kann in Agenten-Setups gefährlicher sein als ein sichtbar chaotisches System. Die Antwort sieht dann plausibel aus, ist aber an entscheidender Stelle nicht mehr an die Quelle gebunden. Das ist die Sorte Fehler, die in Demos selten auffällt und in Produktionssystemen Ärger produziert.

Datenschutz und Datenhoheit

Für europäische Unternehmen ist Mistral Small 3.1 einer der angenehmeren Fälle im aktuellen Cloud-Markt. Der Provider ist Mistral AI SAS mit Sitz in Paris, Frankreich. Laut Provider Card gilt EU-Recht beziehungsweise DSGVO, der Datenstandort liegt in der EU, ein GDPR-DPA ist verfügbar, und die Datenspeicherung beträgt 30 Tage. Das ist für Compliance-Abteilungen nicht romantisch, aber beruhigend konkret.

Wichtig ist die juristische Einordnung: Da Mistral AI ein französisches Unternehmen mit EU-Datenhaltung ist, ist der US CLOUD Act hier nicht anwendbar. Das berechnete Sovereign Risk liegt bei LOW. Für deutsche und europäische Unternehmen bedeutet das: Die datenschutzrechtliche Ausgangslage ist deutlich günstiger als bei US-Providern, auch wenn natürlich weiterhin geprüft werden muss, welche Inhalte man überhaupt an einen externen KI-Dienst übergibt. Das Weights-Provenienz-Risiko weicht hier nicht von der Deployment-Situation ab und erzeugt keinen zusätzlichen Souveränitätskonflikt.

Fazit

Mistral Small 3.1 ist ein überzeugendes Beispiel dafür, wie weit ein schneller, günstiger Cloud-Generalist heute kommen kann. Es ist über die Mistral-AI-Cloud leichtgewichtig im Preis, schwer genug in der Leistung und im Alltag deutlich nützlicher, als sein kompakter Zuschnitt vermuten lässt. Besonders stark ist es bei CLI-Aufgaben, Content-Transformation und solider, mehrsprachig sauberer Alltagsarbeit. Dazu kommen hervorragende Praxiswerte bei Geschwindigkeit und Stabilität. Das Modell wirkt wie ein Werkzeug, nicht wie ein Experiment.

Seine Grenzen sind allerdings klar sichtbar. Code Quality ist brauchbar, aber sicherheitlich nicht tief genug für harte Audits. Reasoning ist korrekt, doch didaktisch oft unsauber und analytisch nicht tief genug, um komplexe Schlussketten mit Autorität zu tragen. UX Writing bleibt zu häufig im Zustand „ordentlich“ stecken. Und die dokumentierte Tool-Halluzination ist für faktenkritische oder agentische Szenarien ein echter Warnhinweis.

Die Empfehlung ist entsprechend klar: Mistral Small 3.1 eignet sich sehr gut für kostensensitive Assistenzsysteme, DevOps-nahe Interaktion, Umformulierungen, Dokumentationsentwürfe und schnelle Business-Textarbeit in deutscher und europäischer Sprachumgebung. Für Security-Audits, komplexe Analyseaufgaben und toolgebundene Faktensynthese sollte immer ein strenger Kontrollmechanismus danebenstehen. Dieses Modell ist kein Blender. Aber es ist auch kein Orakel. Es arbeitet schnell, diszipliniert und günstig. Man sollte nur nicht erwarten, dass es aus Solidität plötzlich Tiefe zaubert.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.