Mistral Medium 3.5

Mistral Medium 3.5 ist Mistral AIs Frontier-Modell mit Fokus auf agentische Workflows und Coding. Mit 128 Milliarden Parametern arbeitet das Modell bei einem Kontextfenster von 256.000 Tokens und unterstützt multimodale Eingaben für Text und Bild. Als Open-Weights-Modell unter Modified-MIT-Lizenz lokal oder über die Cloud-API nutzbar, aus einem europäischen Anbieter-Umfeld mit DSGVO-Konformität.

Mistral AI Version 3.5 Kommerzielle Nutzung erlaubt Dense 128 B (128 B aktiv) 256 K Context 12/2025 $1.5 / $7.5 per 1M

Open Weights
Server
API
Text
Vision
Instruction-Tuned
Real-Time

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	100	90
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	35	57.5
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

100

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

57.5

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 0.57; First Request

MCP: 0.94; Protocol Latency

Synthesis: 2.67; Response Generation

Total: 25.09; Sum of All Phases

Token: 10645; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deployen, weil die Tool-Ausführung stark und protokollsauber ist, die Synthesetreue aber zu oft vom belegbaren Tool-Inhalt wegdriftet und damit das Vertrauen in nachgelagerte Entscheidungen begrenzt.

Tool-Execution-Profil

Mistral Medium 3.5 verhält sich auf der MCP-Seite produktionsreif. Die Tool-Calls sind valide, Retry war nicht erforderlich, und das Modell zeigt kein reines Schema-Folgen. Beim Test Web Search & Tool Selection, der prüft, ob ohne Hinweis statt fetch ein Such-Tool gewählt werden muss, trifft es die richtige Werkzeugwahl sicher. Das spricht für echte Werkzeugintelligenz in offenen Pipelines.

Schwächer ist die Präzision beim URL-Construction-Test, der prüft, ob das Modell eine Ziel-URL aus eigenem Wissen korrekt ableiten und dann fetch ausführen kann. Hier reicht die Ausführung für brauchbare Ergebnisse, aber nicht für deterministische Flows mit harten Erwartungen an exakte Endpunkte. Das Muster ist klar: Wenn die Umgebung das richtige Tool bereitstellt und die Zielermittlung offen ist, agiert das Modell stark. Wenn es selbst eine konkrete URL herleiten muss, sinkt die Verlässlichkeit.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Der P2-Wert von 59.17 passt zum Asset-Bild: perfekte Verdichtung bei HTTP Fetch & Extract, aber deutliche Schwächen bei EU License Research, URL Construction & Fetch und Multilingual Search & Synthesis. Das Modell kann Fakten aus vorliegendem Content sauber extrahieren. Es ist aber weniger zuverlässig darin, mehrere Tool-Ergebnisse eng am Belegstand zusammenzuführen und Unsicherheit sauber zu markieren.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau dieses Verhalten prüft, halluziniert es zwar nicht und der Verifikationsstatus ist stark. Trotzdem ist der niedrige P2-Wert ein Warnsignal: Das Modell bleibt formal im sicheren Bereich, verdichtet die recherchierten Lizenzinformationen aber nicht präzise genug für Compliance-nahe Nutzung. Da global Halluzination erkannt wurde, ist das ein Sicherheitsrisiko, nicht nur ein Qualitätsmangel. In einer Tool-Pipeline untergräbt erfundener oder überdehnter Output die Beweiskette der gesamten Infrastruktur.

Fehlerresilienz

Im 404-Test reagiert das Modell akzeptabel. Es kommuniziert den Tool-Fehler transparent und erfindet keinen Seiteninhalt. Der P2-Wert von 60 zeigt, dass die Fehlermeldung nicht immer ideal verdichtet ist, aber das Verhalten bleibt produktionsfähig. Für Betrieb zählt hier vor allem, dass bei fehlgeschlagenem Abruf keine Ersatzfakten konstruiert werden.

Souveränitätsprofil

Lokal betreibbar und damit für souveräne Deployments attraktiv. Gleichzeitig liegt das Modell nur 1.37 Punkte unter dem Fleet-Ø von 67.84. Das ist für ein open-weights, lokal einsetzbares Server-Modell ein starkes Betriebsargument.

Fazit & Empfehlung

Geeignet für MCP-gestützte Pipelines, in denen Tool-Wahl, Abruf und strukturierte Extraktion wichtiger sind als hochpräzise Schlussverdichtung: Rechercheassistenz, technische Informationsbeschaffung, Vorverarbeitung für menschliche Freigabe. Nicht die erste Wahl für Compliance, Policy-Auslegung, mehrsprachige Evidenzsynthese oder andere Flows, in denen jedes Ergebnis eng am Tool-Beleg bleiben muss. Deploy nur mit Response-Grounding, Quellenanzeige und einem Validator auf der letzten Synthesestufe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.