Devstral 2

Devstral 2 ist Mistral AIs Code-Agent für anspruchsvolle Software-Engineering-Aufgaben. Mit 123 Milliarden Parametern arbeitet das Modell auf Codebasis-Exploration, Multi-File-Änderungen, Debugging und Legacy-Modernisierung, unterstützt ein Kontextfenster von 256.000 Tokens und verarbeitet neben Text auch Bildeingaben. Als Open-Weights-Modell unter modified-MIT-Lizenz verfügbar, aus einem europäischen Anbieter-Umfeld mit DSGVO-Konformität.

Mistral AI Version 2 Kommerzielle Nutzung erlaubt Dense 123 B 256 K Context 12/2024 $0.4 / $2 per 1M

Open Weights
Frontier
API
Text
Vision
Long Context
Interactive

Sovereign Risk: LOW Mistral AI ist ein französisches Unternehmen mit Sitz in Paris, unterliegt EU-DSGVO und dem AI Act. Keine bekannten staatlichen Einflussrisiken. Modellgewichte verfügbar.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	95	40	62
HTTP Fetch & Extract	35	0	17.5
Tool Failure Handling (404)	75	80	76.8
Web Search & Tool Selection	35	20	28.3
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	95	60	77.5

Name

Combined

EU License Research

HTTP Fetch & Extract

17.5

Tool Failure Handling (404)

76.8

Web Search & Tool Selection

28.3

URL Construction & Fetch

Multilingual Search & Synthesis

77.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.19; First Request

MCP: 0.82; Protocol Latency

Synthesis: 7.89; Response Generation

Total: 65.35; Sum of All Phases

Token: 8518; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Devstral 2 keine Halluzinationen zeigte, aber invalide Tool-Calls produzierte und mit 48.50 kombiniert klar unter der Schwelle für vertrauenswürdige Standard-Orchestrierung bleibt.

Tool-Execution-Profil

Die Kernschwäche liegt nicht im Zugriff auf Tools an sich, sondern in der Wahl und Form des Aufrufs. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis prüft, ob statt fetch ein web_search nötig ist, erkennt das Modell den Werkzeugwechsel nur unzuverlässig. Das spricht gegen echte Tool-Intelligenz in offenen Pipelines. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und anschließendes fetch misst, arbeitet es deutlich besser. Das Muster wirkt deshalb nicht wie generelle Tool-Unfähigkeit, sondern wie ein eher starres Vorgehen: bekannte direkte Abrufpfade funktionieren, situationsabhängige Werkzeugwahl nicht stabil genug. Da Retry erforderlich war und der Tool-Call als nicht valide markiert ist, spricht mehr für ein Protokoll- oder Formatproblem als für reines Inhaltsverständnis. Für MCP-Pipelines ist das trotzdem kritisch, weil Orchestratoren deterministische Call-Strukturen brauchen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. P2 bei 40 zeigt, dass Devstral 2 gewonnene Inhalte nur begrenzt sauber zusammenführt. Das sieht man besonders bei HTTP Fetch & Extract, das präzise Faktenextraktion aus echtem Seiteninhalt misst, und bei Multilingual Search & Synthesis, das sprachübergreifende Recherche mit deutscher Zusammenfassung prüft. Dort bricht die Verdichtung praktisch weg.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal besser als die Synthesequalität. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, blieb das Modell an den Tool-Pfad gebunden. Keine Halluzination, Content-Verification-State A. Das ist für Compliance-nahe Workflows wichtiger als der reine P2-Wert.

Fehlerresilienz

Beim 404-Test, der misst, ob ein fehlgeschlagener Tool-Call transparent behandelt wird, reagiert Devstral 2 produktionsgerecht. Es kommuniziert den Fehler, statt Seiteninhalt zu erfinden. P2 80 und keine Halluzination trotz 404 sind ein belastbares Positivsignal. Für produktive Systeme ist das akzeptabel, weil ein sichtbarer Fehler korrigierbar ist, erfundener Ersatzinhalt aber nicht.

Betriebsprofil

Total 57.71s pro Run. Modell-Calls 4.74s und 4.51s, MCP-Latenz 0.37s. Damit insgesamt langsam. Kosten 0.004757 pro Run. Damit günstig. Preis passt, Leistung nicht.

Fazit & Empfehlung

Geeignet für eng geführte Coding- oder Retrieval-Pipelines mit starker externer Tool-Steuerung, hartem Schema-Check und automatischen Retries. Nicht geeignet für offene MCP-Setups, in denen das Modell selbstständig zwischen Suche, Fetch und Synthese wechseln muss. Wer es einsetzt, sollte die Werkzeugwahl außerhalb des Modells treffen und die Antwort als nachgelagerte Verarbeitung behandeln, nicht als verlässliche Agentensteuerung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Devstral 2

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung