Devstral 2

Devstral 2 ist Mistral AIs Code-Agent für anspruchsvolle Software-Engineering-Aufgaben. Mit 123 Milliarden Parametern arbeitet das Modell auf Codebasis-Exploration, Multi-File-Änderungen, Debugging und Legacy-Modernisierung, unterstützt ein Kontextfenster von 256.000 Tokens und verarbeitet neben Text auch Bildeingaben. Als Open-Weights-Modell unter modified-MIT-Lizenz verfügbar, aus einem europäischen Anbieter-Umfeld mit DSGVO-Konformität.

Mistral AI Version 2 Kommerzielle Nutzung erlaubt Dense 123 B 256 K Context 12/2024 $0.4 / $2 per 1M

  • Open Weights
  • Frontier
  • API
  • Text
  • Vision
  • Long Context
  • Interactive

Sovereign Risk: LOW Mistral AI ist ein französisches Unternehmen mit Sitz in Paris, unterliegt EU-DSGVO und dem AI Act. Keine bekannten staatlichen Einflussrisiken. Modellgewichte verfügbar.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.19
First Request
MCP
0.82
Protocol Latency
Synthesis
7.89
Response Generation
Total
65.35
Sum of All Phases
Token
8518
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Long Context

Deployment-Urteil

Bedingt deploy, weil Devstral 2 keine Halluzinationen zeigte, aber invalide Tool-Calls produzierte und mit 48.50 kombiniert klar unter der Schwelle für vertrauenswürdige Standard-Orchestrierung bleibt.

Tool-Execution-Profil

Die Kernschwäche liegt nicht im Zugriff auf Tools an sich, sondern in der Wahl und Form des Aufrufs. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis prüft, ob statt fetch ein web_search nötig ist, erkennt das Modell den Werkzeugwechsel nur unzuverlässig. Das spricht gegen echte Tool-Intelligenz in offenen Pipelines. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und anschließendes fetch misst, arbeitet es deutlich besser. Das Muster wirkt deshalb nicht wie generelle Tool-Unfähigkeit, sondern wie ein eher starres Vorgehen: bekannte direkte Abrufpfade funktionieren, situationsabhängige Werkzeugwahl nicht stabil genug. Da Retry erforderlich war und der Tool-Call als nicht valide markiert ist, spricht mehr für ein Protokoll- oder Formatproblem als für reines Inhaltsverständnis. Für MCP-Pipelines ist das trotzdem kritisch, weil Orchestratoren deterministische Call-Strukturen brauchen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. P2 bei 40 zeigt, dass Devstral 2 gewonnene Inhalte nur begrenzt sauber zusammenführt. Das sieht man besonders bei HTTP Fetch & Extract, das präzise Faktenextraktion aus echtem Seiteninhalt misst, und bei Multilingual Search & Synthesis, das sprachübergreifende Recherche mit deutscher Zusammenfassung prüft. Dort bricht die Verdichtung praktisch weg.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal besser als die Synthesequalität. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, blieb das Modell an den Tool-Pfad gebunden. Keine Halluzination, Content-Verification-State A. Das ist für Compliance-nahe Workflows wichtiger als der reine P2-Wert.

Fehlerresilienz

Beim 404-Test, der misst, ob ein fehlgeschlagener Tool-Call transparent behandelt wird, reagiert Devstral 2 produktionsgerecht. Es kommuniziert den Fehler, statt Seiteninhalt zu erfinden. P2 80 und keine Halluzination trotz 404 sind ein belastbares Positivsignal. Für produktive Systeme ist das akzeptabel, weil ein sichtbarer Fehler korrigierbar ist, erfundener Ersatzinhalt aber nicht.

Betriebsprofil

Total 57.71s pro Run. Modell-Calls 4.74s und 4.51s, MCP-Latenz 0.37s. Damit insgesamt langsam. Kosten 0.004757 pro Run. Damit günstig. Preis passt, Leistung nicht.

Fazit & Empfehlung

Geeignet für eng geführte Coding- oder Retrieval-Pipelines mit starker externer Tool-Steuerung, hartem Schema-Check und automatischen Retries. Nicht geeignet für offene MCP-Setups, in denen das Modell selbstständig zwischen Suche, Fetch und Synthese wechseln muss. Wer es einsetzt, sollte die Werkzeugwahl außerhalb des Modells treffen und die Antwort als nachgelagerte Verarbeitung behandeln, nicht als verlässliche Agentensteuerung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.