Mistral 3 Large

Mistral 3 Large ist das offene Frontier-Modell aus Mistral AIs dritter Generation mit nativem Text- und Bildeingang und einem Kontextfenster von 256.000 Tokens. Die Sparse-MoE-Architektur vereint 675 Milliarden Gesamtparameter mit 41 Milliarden aktiven Parametern pro Token. Unter Apache-2.0-Lizenz verfügbar, aus einem europäischen Anbieter-Umfeld mit DSGVO-Konformität.

Mistral AI Version 2512 Kommerzielle Nutzung erlaubt MoE 675 B (41 B aktiv) 256 K Context 12/2024 $2 / $6 per 1M

  • Open Weights
  • Frontier
  • API
  • Text
  • Vision
  • Vision
  • Long Context
  • Real-Time

Sovereign Risk: LOW Mistral AI ist ein französisches Unternehmen und veröffentlicht die Gewichte dieses Modells offen unter Apache 2.0. Damit besteht kein proprietärer Gewichts-Lock-in und die rechtliche Einordnung bleibt im EU-Kontext.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
21.01
First Request
MCP
0.95
Protocol Latency
Synthesis
8.92
Response Generation
Total
185.3
Sum of All Phases
Token
8990
Input + Output
Cost
$0.0077
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Vision · Long Context

Deployment-Urteil

Bedingt deploy, weil Mistral 3 Large valide Tool-Calls erzeugt und im MCP-Ablauf sauber arbeitet, aber die Synthesetreue mit Combined 59.71 und Halluzinationsbefund für produktive Tool-Pipelines nicht verlässlich genug ist.

Tool-Execution-Profil

Das Modell ist auf der Ausführungsseite klar stärker als auf der Antwortseite. P1 90 zeigt, dass es Tools korrekt anspricht und keine Protokollprobleme erzeugt. Der Befund wirkt nicht wie starres Schema-Fahren. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und Fetch prüft, erkennt es den richtigen Werkzeugtyp sicher und erreicht P1 100. Das spricht für echte Werkzeugwahl unter Unsicherheit. Beim URL-Construction-Test, der korrekte Ziel-URL und anschließenden Fetch verlangt, fällt es auf P1 80 zurück. Es kann also operativ arbeiten, ist aber bei abgeleiteten URLs nicht präzise genug für deterministische Abläufe. Retry war nicht nötig. Das Problem liegt nicht im Format, sondern in der inhaltlichen Genauigkeit nach erfolgreichem Call.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nicht gut genug für belastbare Produktionsantworten. P2 30 ist der zentrale Bremspunkt dieses Modells. Besonders schwach sind EU License Research mit P2 20, URL Construction & Fetch mit P2 15 und Multilingual Search & Synthesis mit P2 15. Das Muster ist klar: Das Modell findet Informationen oft, komprimiert sie aber unzuverlässig, lässt Präzision liegen und verliert Faktenbindung in der Endantwort.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus Trainingswissen stammen, bleibt das Modell formal im Tool-Pfad. Content-Verification-State A und keine Halluzination in diesem Test sind ein positives Vertrauenssignal. Trotzdem bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko. In einer MCP-Pipeline zählt nicht nur, ob ein Tool aufgerufen wurde, sondern ob die Antwort strikt auf dessen Ergebnis begrenzt bleibt. Diese Grenze hält Mistral 3 Large nicht konsistent.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit einem fehlschlagenden Tool-Call prüft, reagiert das Modell akzeptabel. P2 60 ist nicht stark, aber es erfindet keinen Seiteninhalt. Genau das ist für Produktion entscheidend. Ein nicht auflösbarer Abruf wird kommuniziert statt kaschiert.

Betriebsprofil

Call 1: 21.01s. Call 2: 8.92s. MCP-Latenz: 0.95s. Total: 185.30s. Langsam. Kosten/Run: 0.007693. Günstig bis moderat. Für die gelieferte Synthesequalität ist das Latenz-Leistungs-Verhältnis schwach.

Fazit & Empfehlung

Geeignet für Pipelines, in denen das Modell primär Tool-Auswahl, Request-Aufbau und einfache Fehlerbehandlung übernimmt und ein nachgelagerter Verifier die Endantwort absichert. Nicht geeignet für Compliance-, Research- oder mehrsprachige Retrieval-Pipelines, in denen die natürliche Sprachsynthese selbst als vertrauenswürdiges Produkt ausgeliefert wird. Wenn Sie Mistral 3 Large einsetzen, dann als ausführenden Agenten mit harter Ergebnisvalidierung, nicht als letzte Instanz der faktengebundenen Ausgabe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.