Mistral 3 Large

Mistral 3 Large ist das offene Frontier-Modell aus Mistral AIs dritter Generation mit nativem Text- und Bildeingang und einem Kontextfenster von 256.000 Tokens. Die Sparse-MoE-Architektur vereint 675 Milliarden Gesamtparameter mit 41 Milliarden aktiven Parametern pro Token. Unter Apache-2.0-Lizenz verfügbar, aus einem europäischen Anbieter-Umfeld mit DSGVO-Konformität.

Mistral AI Version 2512 Kommerzielle Nutzung erlaubt MoE 675 B (41 B aktiv) 256 K Context 12/2024 $2 / $6 per 1M

Open Weights
Frontier
API
Text
Vision
Vision
Long Context
Real-Time

Sovereign Risk: LOW Mistral AI ist ein französisches Unternehmen und veröffentlicht die Gewichte dieses Modells offen unter Apache 2.0. Damit besteht kein proprietärer Gewichts-Lock-in und die rechtliche Einordnung bleibt im EU-Kontext.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	20	52
HTTP Fetch & Extract	80	35	57.5
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	15	47.5
Multilingual Search & Synthesis	100	15	57.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

57.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

47.5

Multilingual Search & Synthesis

100

57.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 21.01; First Request

MCP: 0.95; Protocol Latency

Synthesis: 8.92; Response Generation

Total: 185.3; Sum of All Phases

Token: 8990; Input + Output

Cost: $0.0077; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Mistral 3 Large valide Tool-Calls erzeugt und im MCP-Ablauf sauber arbeitet, aber die Synthesetreue mit Combined 59.71 und Halluzinationsbefund für produktive Tool-Pipelines nicht verlässlich genug ist.

Tool-Execution-Profil

Das Modell ist auf der Ausführungsseite klar stärker als auf der Antwortseite. P1 90 zeigt, dass es Tools korrekt anspricht und keine Protokollprobleme erzeugt. Der Befund wirkt nicht wie starres Schema-Fahren. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und Fetch prüft, erkennt es den richtigen Werkzeugtyp sicher und erreicht P1 100. Das spricht für echte Werkzeugwahl unter Unsicherheit. Beim URL-Construction-Test, der korrekte Ziel-URL und anschließenden Fetch verlangt, fällt es auf P1 80 zurück. Es kann also operativ arbeiten, ist aber bei abgeleiteten URLs nicht präzise genug für deterministische Abläufe. Retry war nicht nötig. Das Problem liegt nicht im Format, sondern in der inhaltlichen Genauigkeit nach erfolgreichem Call.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nicht gut genug für belastbare Produktionsantworten. P2 30 ist der zentrale Bremspunkt dieses Modells. Besonders schwach sind EU License Research mit P2 20, URL Construction & Fetch mit P2 15 und Multilingual Search & Synthesis mit P2 15. Das Muster ist klar: Das Modell findet Informationen oft, komprimiert sie aber unzuverlässig, lässt Präzision liegen und verliert Faktenbindung in der Endantwort.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus Trainingswissen stammen, bleibt das Modell formal im Tool-Pfad. Content-Verification-State A und keine Halluzination in diesem Test sind ein positives Vertrauenssignal. Trotzdem bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko. In einer MCP-Pipeline zählt nicht nur, ob ein Tool aufgerufen wurde, sondern ob die Antwort strikt auf dessen Ergebnis begrenzt bleibt. Diese Grenze hält Mistral 3 Large nicht konsistent.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit einem fehlschlagenden Tool-Call prüft, reagiert das Modell akzeptabel. P2 60 ist nicht stark, aber es erfindet keinen Seiteninhalt. Genau das ist für Produktion entscheidend. Ein nicht auflösbarer Abruf wird kommuniziert statt kaschiert.

Betriebsprofil

Call 1: 21.01s. Call 2: 8.92s. MCP-Latenz: 0.95s. Total: 185.30s. Langsam. Kosten/Run: 0.007693. Günstig bis moderat. Für die gelieferte Synthesequalität ist das Latenz-Leistungs-Verhältnis schwach.

Fazit & Empfehlung

Geeignet für Pipelines, in denen das Modell primär Tool-Auswahl, Request-Aufbau und einfache Fehlerbehandlung übernimmt und ein nachgelagerter Verifier die Endantwort absichert. Nicht geeignet für Compliance-, Research- oder mehrsprachige Retrieval-Pipelines, in denen die natürliche Sprachsynthese selbst als vertrauenswürdiges Produkt ausgeliefert wird. Wenn Sie Mistral 3 Large einsetzen, dann als ausführenden Agenten mit harter Ergebnisvalidierung, nicht als letzte Instanz der faktengebundenen Ausgabe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Mistral 3 Large

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung