Codestral 25.08

Für Code-Aufgaben trainiert und nicht für Allgemeines: Codestral 25.08 ist Mistral AIs spezialisiertes Entwickler-Modell aus dem August 2025, optimiert auf Fill-in-the-Middle und eine breite Palette an Programmiersprachen. Mit 22 Milliarden Parametern unterstützt es 128.000 Tokens Kontext, läuft wahlweise lokal oder über die Mistral-API, unterliegt allerdings einer restriktiven Lizenz mit eingeschränkter kommerzieller Nutzung.

Mistral AI Version 25.08 Kommerzielle Nutzung eingeschränkt Dense 22 B 128 K Context 07/2025 $0.2 / $0.6 per 1M

Restricted Weights
Desktop
API
Text
Real-Time

Sovereign Risk: LOW Mistral AI ist ein französisches Unternehmen mit Sitz in der EU und unterliegt keiner staatlichen Zugriffspflicht auf Modellgewichte wie dem US CLOUD Act oder dem chinesischen NSL.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	40	40	37
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 0.54; First Request

MCP: 1.03; Protocol Latency

Synthesis: 2.17; Response Generation

Total: 22.45; Sum of All Phases

Token: 9014; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil das Modell zwar keine Halluzinationen zeigt, aber kein durchgängig valides Tool-Calling liefert und die Gesamteignung mit 68.83 nur moderat ausfällt.

Tool-Execution-Profil

Codestral 25.08 trifft die Werkzeugwahl oft richtig, ist aber in der Ausführung nicht stabil genug für hochdeterministische MCP-Pipelines. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis zwischen Suche und direktem Abruf unterscheiden lässt, erkennt es den Bedarf für web_search zuverlässig. Das spricht gegen ein rein starres Muster und für brauchbare Tool-Intelligenz. Beim URL-Construction-Test, der die Ziel-URL aus Eigenwissen ableiten und dann korrekt abrufen lässt, bleibt es brauchbar, aber nicht präzise genug für Pipelines, die auf reproduzierbare Fetch-Pfade angewiesen sind. Der Befund tool_call_valid=false ist hier der operative Kern: Das Modell ist nicht protokollunsicher im Sinn von chaotisch, aber es produziert nicht konsistent die Art von gültigen Calls, die man unbeaufsichtigt in kritische Automationen geben will. Retry war nicht nötig. Das spricht eher für ein Präzisionsproblem in der Tool-Nutzung als für ein grundlegendes Formatversagen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Die P2-Leistung von 56.67 zeigt ein wiederkehrendes Problem in der Verdichtung und im sauberen Zusammenführen von Rechercheergebnissen. Das sieht man besonders bei EU License Research und Multilingual Search & Synthesis: Es beschafft Informationen, verdichtet sie aber nicht mit der Klarheit und Trennschärfe, die Produktionsnutzer für belastbare Entscheidungsoutputs brauchen.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, bleibt es vertrauenswürdig. P2=40 ist schwach, aber Halluzinationen wurden nicht erkannt. Das ist wichtig: Das Modell erfindet hier keine Compliance-Fakten. Es verdichtet schlecht, aber es bricht nicht die Quelle-zu-Antwort-Kette.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei einem fehlschlagenden Abruf misst, halluziniert Codestral 25.08 keinen Ersatzinhalt. Das ist der zentrale Produktionspunkt. Die Kommunikation des Fehlers ist jedoch nicht stark genug, um als robuste Incident-Ausgabe zu gelten. P2=40 heißt: akzeptabel für überwachte Pipelines, nicht ausreichend für autonome Fehlerpfade.

Souveränitätsprofil

Lokal betreibbar und damit souverän einsetzbar. Combined 68.83 liegt 0.90 Punkte über dem Fleet-Ø von 67.93. Kein Souveränitätsabschlag erkennbar.

Fazit & Empfehlung

Geeignet für lokale, MCP-gestützte Coding- und Recherchepipelines mit menschlicher Nachkontrolle, besonders wenn Quellentreue wichtiger ist als elegante Ergebnisverdichtung. Nicht geeignet für Compliance-nahe, vollautonome oder stark deterministische Tool-Ketten, in denen jeder Call formal gültig sein und jede Synthese direkt weiterverarbeitet werden muss. Als ausführendes Code-Modell mit Web-Zugriff ist es nutzbar. Als verlässlicher Endpunkt einer unbeaufsichtigten Tool-Infrastruktur noch nicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.