LLM Model Review
· General · Instruct
Mit einem Gesamtscore von 74,04 Prozent tritt Mistral Small 4 als das auf, was seine Metadaten versprechen: ein Generalist mit klarer Instruct-Prägung, gebaut als 24B-Dense-Modell in der Workstation-Klasse. Es antwortet schnell, gehorcht meistens sauber und wirkt in vielen Disziplinen erstaunlich erwachsen. Aber es ist kein Denker alter Schule und auch kein pedantischer Sicherheitsprüfer. Der Speed Profile Badge lautet Real-Time DevOps Expert. Das passt: Mit 168,99 Tokens pro Sekunde ist dieses kommerzielle Cloud-Modell über die Mistral-AI-API auf Interaktion getrimmt, nicht auf kontemplative Langstrecke. Sovereign Risk: LOW — Mistral AI ist ein französischer Anbieter mit EU-Jurisdiktion, EU-Datenhaltung und ohne Anwendbarkeit des US CLOUD Act.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 0/43 | Stabil | Das Modell lief im Test absolut stabil und zuverlässig. |
| P95-Antwortzeit | 15.68 s | Konsistent | Sehr geringer Tail, kaum Ausreißer. |
Diese Kopfnoten sind mehr als Kosmetik. Gerade bei Cloud-Modellen entscheidet nicht nur die Qualität, sondern ob ein Endpoint unter Last noch berechenbar bleibt. Mistral Small 4 leistet sich hier keinen Patzer. Null Timeouts über 43 Tests sind ein sauberes Signal. Eine P95-Antwortzeit von 15,68 Sekunden bedeutet: Selbst die langsamen Ausreißer bleiben im Rahmen. Für Chat, Assistenz und interaktive Entwickler-Workflows ist das ein echter Praxisvorteil. Geschwindigkeit ohne Nervenflattern ist selten genug, um es ausdrücklich zu würdigen.
Architektur und Charakter: ein Generalist, der lieber liefert als philosophiert
Die redaktionelle Einordnung als General, Instruct trifft das Modell ziemlich präzise. Mistral Small 4 ist kein spezialisiertes Coding-Modell und kein fest verdrahtetes Reasoning-System mit sichtbarem Denkpfad. Es ist ein Allrounder, der Anweisungen direkt abarbeitet, meist kompakt bleibt und nicht den Drang verspürt, jede Aufgabe in ein Seminar zu verwandeln. Das ist in der Praxis oft eine Tugend.
Als Dense-Modell mit 24 Milliarden Parametern muss es sich an seiner vollen aktiven Kapazität messen lassen. Anders als bei Mixture-of-Experts gibt es hier keinen statistischen Taschenspielertrick mit hoher Gesamtzahl und kleiner aktiver Teilmenge. Für die Workstation-Klasse darf man also breite Solidität erwarten. Genau das liefert Mistral Small 4 auch. Es glänzt nicht durch einzelne absurde Ausreißer nach oben, fällt aber in kaum einer Kernkompetenz auseinander. Das ist weniger glamourös als manche Frontier-Show und oft nützlicher.
Sein Charakter im Benchmark ist klar: schnell, pragmatisch, meist formattreu, gelegentlich etwas zu knapp in der Tiefe und bei komplexeren Denk- oder Sicherheitsketten nicht ganz auf dem Niveau größerer Modelle. Es ist der Mitarbeiter, der in Meetings nicht brilliert, aber die To-do-Liste zuverlässig abarbeitet. Solche Modelle altern in der Praxis oft besser als jene, die auf jeder zweiten Aufgabe einen großen Auftritt brauchen.
Performance und Kostenprofil
Der erwähnte Badge Real-Time DevOps Expert ist keine Marketingtapete, sondern eine brauchbare Kurzbeschreibung des Einsatzprofils. Gemeint ist: Das Modell eignet sich vor allem für schnelle, iterative Arbeitsabläufe mit kurzen Rückkopplungsschleifen. Also Terminal-nahe Hilfe, strukturierte Textarbeit, Debugging-Hinweise, Umformulierungen, technische Zusammenfassungen. Nicht unbedingt für jene mehrstufigen Denksportaufgaben, bei denen ein Modell erst einmal innerlich drei Bretter Schach spielen muss.
Die gemessenen 168,99 Tokens pro Sekunde sind für ein Cloud-Modell dieser Klasse sehr stark. Noch interessanter ist der Preis: 0,1 Dollar pro 1 Million Input-Tokens und 0,3 Dollar pro 1 Million Output-Tokens. Das ist aggressiv kalkuliert. Mit 0,0168 Dollar Benchmark-Kosten bewegt sich Mistral Small 4 in einer Zone, in der man API-Nutzung nicht sofort mit dem Rotstift rechnen muss. Hier zeigt sich Mistrals Kernkompetenz: gute Nützlichkeit zu Kosten, bei denen man nicht erst den CFO um Erlaubnis bitten will.
Auch auf der Ausgabeseite bleibt das Modell diszipliniert. Über alle gemessenen Module hinweg ist kein Verbosity-Ausreißer zu sehen. Im Gegenteil: Das Modell verhält sich token-ökonomisch — kein Modul übersteigt den erwarteten Verbosity-Rahmen. Das ist bei Cloud-Nutzung ein handfester Vorteil. Ein Modell, das denselben Job mit 30 oder 80 Prozent mehr Text erledigt, ist nicht hilfreicher. Es ist nur teurer.
Code Quality: kompetent, aber nicht forensisch
Im Modul Code Quality erreicht Mistral Small 4 77,5 Prozent. Das ist ein gutes Ergebnis und deckt sich mit den qualitativen Protokollen: Das Modell erkennt viele reale Schwachstellen, strukturiert seine Antworten sauber und liefert brauchbare Fix-Hinweise. Die Markdown-Tabellen sitzen, die Sprache bleibt technisch präzise, und die Antwort ist sofort weiterverwendbar. Für Security-Reviews auf Team-Niveau ist das brauchbares Werkzeug, kein Blendwerk.
Das Lob endet dort, wo es ernst wird. In der Sicherheitsanalyse eines absichtlich verwundbaren PHP-Systems identifiziert Mistral Small 4 zwar einen Großteil der relevanten Lücken, unterschätzt aber mehrfach die Schwere einzelner Befunde. Path Traversal wird etwa nur als hoch statt kritisch gewertet. Eine schwache API-Key-Prüfung via Loose Comparison landet ebenfalls zu niedrig. Dazu fehlen einzelne explizite Funde wie hartkodierte Datenbank-Zugangsdaten oder ein Reset-Token ohne Ablaufzeit. Das ist kein Totalausfall, aber es ist genau die Sorte Fehler, die aus einem „nützlichen Assistenten“ noch keinen belastbaren Security-Auditor macht.
Noch deutlicher wird die Grenze bei der Systemik. Das Modell benennt Schwachstellen, aber es erzählt ihre Kettenreaktion zu selten mit. Der Golden Standard arbeitete mit konkreten Angriffsketten, etwa von IDOR über Passwort-Reset bis zur Admin-Übernahme. Mistral Small 4 bleibt eher auf Ebene einzelner Punkte und verliert dabei das, worauf es in echter Sicherheitsarbeit ankommt: Risiken eskalieren selten isoliert. Wer Security ernst meint, braucht nicht nur Bug-Listen, sondern ein Modell, das Angriffspfade wie Dominosteine lesen kann.
Trotzdem: Für ein generalistisches Instruct-Modell in dieser Preis- und Geschwindigkeitsklasse ist das Ergebnis respektabel. Es weiß, was eine gute Audit-Tabelle ist. Es weiß auch, was prepared statements, password_hash() oder hash_equals() leisten. Es ist nur noch nicht der Kollege, dem man nach dem Pentest blind das Executive Summary unterschreiben lässt.
Logik und Reasoning: korrekt, aber ohne Eleganz
Im Bereich Logical Reasoning landet Mistral Small 4 bei 63,83 Prozent. Das ist kein Desaster, aber der Abstand zu wirklich starken Denkmodellen wird sichtbar. Die qualitative Auswertung zeigt ein wiederkehrendes Muster: Das Modell kommt oft zur richtigen Lösung, braucht dafür aber einen Weg, der unnötig kreist. Es denkt nicht falsch. Es denkt unordentlich.
Das Protokoll zur klassischen Wächter-und-Türen-Aufgabe ist exemplarisch. Mistral Small 4 findet die korrekte Frage und damit die richtige Lösung. Inhaltlich sitzt das. Was fehlt, ist die pädagogische Präzision. Statt einer klaren Fallunterscheidung oder einer kleinen Wahrheitstabelle wiederholt das Modell mehrere fast identische Formulierungen und verliert dabei an Schärfe. Das erinnert an jemanden, der die richtige mathematische Intuition hat, aber beim Erklären dauernd neu ansetzt, weil ihm die saubere Tafelanschrift fehlt.
Gerade für die Kategorie Instruct ist das kein ungewöhnliches Profil. Solche Modelle sind oft darauf trainiert, schnell und direkt zu antworten, nicht darauf, eine lange Beweisführung didaktisch auszuleuchten. Das entschuldigt die Schwäche nicht vollständig, erklärt sie aber. Wer ein Modell für Analyse, Struktur und verlässliche Zwischenbegründungen sucht, bekommt hier ein Werkzeug, das meistens richtig landet, aber nicht immer zeigt, warum der Weg tragfähig war. Im Alltag reicht das oft. In Prüfpfaden, Architekturentscheidungen oder mathematisch heiklen Aufgaben reicht es eben nicht.
Content Transformation und UX Writing: stark im Handwerk, anfällig beim Wortlimit
In Content Transformation & Adaption erzielt Mistral Small 4 74,63 Prozent, in UX Writing & Microcopy 69,25 Prozent. Das Profil ist eindeutig: Das Modell kann Texte umbauen, strukturieren, verdichten und in produktionsnahe Form bringen. Es versteht Tonalität, erkennt fehlende Bausteine und liefert verwertbare Fassungen statt bloßer Stilübungen.
Das Beispiel eines YouTube-Tutorial-Skripts zeigt diese Stärke gut. Mistral Small 4 baut ein funktionales, deutschsprachiges Produktionsskript mit Hook, Schritten, CTA und visuellen Hinweisen. Das ist keine sterile Rohfassung, sondern ein Text, mit dem ein Team tatsächlich weiterarbeiten kann. Gleichzeitig offenbart der Judge die typische Grenze: Die Analyse benennt, was fehlt, erklärt aber zu selten, warum es für Retention oder Dramaturgie relevant ist. Auch Produktionsbegriffe wie „Pattern Interrupt“ werden eher oberflächlich verstanden. Ein verbales „But wait“ ist eben noch kein echter Regiebruch.
Hinzu kommt ein Problem, das im Produktionsalltag unerquicklich konkret wird: Längen-Disziplin. In einer Aufgabe im Content-Transformation-Modul überschritt das Modell die explizite Wortvorgabe von 250 Wörtern auf 313 Wörter, also auf 125 Prozent des Limits. Das System verhängte dafür einen automatischen Abzug von 16,80 Punkten beziehungsweise 20 Prozent auf den erzielten Score. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Dieser Befund ist wichtig, weil er den Charakter des Modells zeigt: Wenn Sprache, Format und Länge gleichzeitig gefordert sind, hält Mistral Small 4 den Stil besser als die Schere.
Auch qualitativ ist das kein Einzelfall ohne Folgen. Beim genannten Videoskript lag die Antwort laut Judge bei rund 1.100 Wörtern statt innerhalb der geforderten 600 bis 900 Wörter. Das Resultat war kein schlechter Text. Es war ein zu langer Text. Für Benchmarks ist das ein Abzug. Für echte Teams ist es Nacharbeit. Wer mit engen Zeichen- und Wortlimits arbeitet, etwa im Marketing, in App-Interfaces oder bei CMS-Vorlagen, sollte hier ein zweites Auge einplanen.
Im UX-Writing wirkt Mistral Small 4 dagegen routinierter. Die Protokolle bescheinigen eine gute Kernleistung, ordentliche Progression und saubere tabellarische Darstellung. Was fehlt, ist nicht Kompetenz, sondern manchmal letzte Strenge bei Vollständigkeit, Metrikdichte oder visueller Präzision. Das Modell schreibt brauchbare Produkttexte. Es schreibt nur nicht immer die Version, die ein erfahrener Redakteur ohne Stift direkt durchwinken würde.
Documentation Quality und Cultural Intelligence: sachlich stark, kulturell sicher
Die Documentation Quality liegt bei 74,13 Prozent und passt gut ins Gesamtbild. Mistral Small 4 ist stark darin, Informationen geordnet, nachvollziehbar und in verwertbarer Form auszugeben. Es neigt nicht zu wilder Selbstdarstellung, sondern zu nützlicher Struktur. Für technische Dokumentation, Arbeitsanweisungen und zusammenfassende Erklärtexte ist das eine echte Stärke. Das Modell produziert dabei mehr Text als der Median, aber nicht exzessiv. Der Overhead von 1,37x bleibt im grünen Bereich und zahlt meist auf Verständlichkeit ein, nicht auf Geschwätzigkeit.
Im Bereich Cultural Intelligence erreicht das Modell 79,3 Prozent. Das ist eines der überzeugenderen Signale im gesamten Benchmark. Im ausgewerteten HR-Rewrite entfernt Mistral Small 4 toxische und genderlastige Formulierungen zuverlässig, bleibt vollständig auf Deutsch und landet in einem professionellen, modernen Ton. Dass es bei inklusiver Formatierung nicht die idealste Variante wählt und semantisch nicht jede Nuance des Goldstandards trifft, ist verkraftbar. Wichtig ist: Das Modell entgleist hier nicht. Es ersetzt aggressiven oder peinlichen Duktus durch eine erwachsene Sprache, ohne in sterile Konzernlyrik zu kippen. Das schaffen längst nicht alle.
CLI und Tool-Nähe: schnell, aber nicht blind vertrauenswürdig
Der CLI-Benchmark steht bei 85,22 Prozent. Das ist stark und unterstreicht den DevOps-Badge. Mistral Small 4 ist flott, strukturiert und in operativen Arbeitsabläufen durchaus zu Hause. Für Shell-nahe Hilfen, Befehlsentwürfe und technische Schrittfolgen wirkt es zweckmäßig statt verspielt. Genau so soll ein Instruct-Generalist in diesem Segment arbeiten.
Aber bei tool-nahen Aufgaben liegt auch die heikelste Schwäche des Modells. Laut Modellhinweisen beherrscht Mistral Small 4 Tool-Use grundsätzlich, erzeugt nativ aber das Mistral-eigene Tool-Call-Format statt des im Benchmark geforderten MCP-JSON-Formats. In CrucibleMark führt das bei mehreren Assets zu Parse-Problemen. Das ist kein dummer Modellfehler im engeren Sinn, sondern ein Kompatibilitätsproblem zwischen Benchmark-Syntax und Herstellerkonvention. Für Leser bleibt trotzdem die praktische Konsequenz: In agentischen Setups zählt nicht, was das Modell gemeint hat, sondern was der Parser akzeptiert.
Schwerer wiegen die dokumentierten Halluzinationen in zwei Tool-Use-Aufgaben. Dort erfand das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten. Der Score wurde deshalb per Halluzinations-Cap begrenzt. Für content-kritische Aufgaben wie Recherche, Faktenberichte oder alles, was aus externer Tool-Ausgabe sauber zitiert werden muss, ist das ein rotes Warnsignal. Sobald ein Modell Tool-Output nicht nur zusammenfasst, sondern mit Eigenfantasie auffüllt, wird es vom Assistenten zum Risiko.
Security und Halluzinationen: solide Analyse, klare rote Linie bei Tool-Fakten
Security ist bei Mistral Small 4 ein Feld mit zwei Gesichtern. Einerseits erkennt es in Code-Audits viel Relevantes und formuliert brauchbare Gegenmaßnahmen. Andererseits zeigt gerade der Tool-Use-Bereich, dass Faktenbindung nicht immer hart genug sitzt. Das ist mehr als eine kleine Ungenauigkeit. Wenn ein Modell auf Basis externer Ergebnisse arbeitet, ist jede erfundene Ergänzung potenziell toxisch. In redaktionellen, forensischen oder Compliance-nahen Kontexten disqualifiziert sich ein System damit sehr schnell selbst.
Der springende Punkt ist also: Mistral Small 4 halluziniert nicht flächendeckend, aber dort, wo es passiert, trifft es einen sensiblen Bereich. Bei freieren Schreib- und Analyseaufgaben ist das weniger dramatisch. Bei Rechercheketten und Tool-verankerten Aussagen schon. Genau deshalb sollte man dieses Modell nicht als alleinige Instanz für faktenkritische Tool-Pipelines einsetzen, jedenfalls nicht ohne strikten Output-Abgleich.
Datenschutz und Datenhoheit
Für europäische Unternehmen ist Mistral Small 4 in der Cloud datenschutzrechtlich deutlich angenehmer als viele US-Angebote. Der Anbieter Mistral AI SAS sitzt in Paris, das anwendbare Recht ist die EU-DSGVO, der angegebene Datenstandort liegt in der EU, und ein GDPR DPA ist verfügbar. Die Datenspeicherung beträgt 30 Tage. Praktisch heißt das: Wer in Deutschland oder der EU DSGVO-konform arbeiten muss, bekommt hier eine sauberere Ausgangslage als bei US-Providern mit CLOUD-Act-Risiko. Das berechnete Sovereign Risk ist folgerichtig LOW. Auch die Gewichte stammen von einem französischen Anbieter, es gibt also keine abweichende Provenienzlage, die das Bild nachträglich eintrüben würde.
Fazit
Mistral Small 4 ist ein ungewöhnlich attraktives Paket: schnell, billig, stabil und in der Breite kompetent. Als Generalist mit Instruct-Charakter und 24B-Dense-Architektur spielt es genau dort stark, wo viele Teams im Alltag tatsächlich arbeiten: technische Assistenz, Textumbau, Dokumentation, CLI-nahe Hilfe, brauchbare Code-Analysen. Der Preis ist niedrig genug, dass man es oft einsetzen kann. Die Latenz ist kurz genug, dass man es gern einsetzt.
Seine Schwächen sind dabei nicht versteckt, sondern gut lesbar. Reasoning ist korrekt, aber oft wenig elegant. Security-Analysen sind nützlich, aber nicht tief genug für höchste Ansprüche. Unter harten Längen-Constraints verliert das Modell gelegentlich die Disziplin. Und bei tool-gebundenen Fakten hat es sich dokumentierte Halluzinationen geleistet. Das ist kein kleiner Makel, sondern die Grenze seines Vertrauensradius.
Die Empfehlung fällt deshalb klar aus: Sehr gut geeignet für interaktive Assistenz, DevOps-nahe Textarbeit, produktive Schreib- und Dokumentationsaufgaben sowie kostensensible API-Szenarien. Bedingt geeignet für Security-Reviews, wenn ein Mensch Severity und Angriffsketten nachschärft. Nicht ohne Absicherung geeignet für faktensensible Tool-Workflows, Recherche oder agentische Pipelines, in denen Parser-Treue und strikte Faktenbindung Pflicht sind. Mistral Small 4 ist kein Genie. Aber es ist ein ernstzunehmendes Arbeitsmodell. Und das ist oft die wertvollere Kategorie.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.