Gemma 4 31B Instruct (Unsloth Q8_K_XL MTP)

Gemma 4 31B Instruct als Q8-Quantisierung mit Multi-Token-Prediction von Unsloth, die hochpräziseste lokale Dense-Variante der Familie. Mit 31 Milliarden Parametern und 128.000 Tokens Kontextfenster liefert das Modell nahezu Vollpräzision bei deutlich erhöhter Token-Rate durch Speculative Decoding. Unter Apache-2.0-Lizenz lokal betreibbar ohne externe Cloud-Verbindung.

Google Version UD-Q8_K_XL (GGUF/MTP)/SPRK Kommerzielle Nutzung erlaubt Dense 31 B (31 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

  • Open Weights
  • Workstation
  • SPRK
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
4.01
First Request
MCP
2.07
Protocol Latency
Synthesis
16.37
Response Generation
Total
134.65
Sum of All Phases
Token
9545
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Nutzung oft funktional ist, aber die MCP-Ausführung nicht durchgehend valide bleibt und die Synthesetreue für verlässliche Produktionspipelines zu schwach ausfällt.

Tool-Execution-Profil

Gemma 4 31B Instruct zeigt echte Tool-Orientierung, nicht bloß starres Fetch-Verhalten. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, erkennt es den Bedarf für web_search sauber. Das spricht für situationsbezogene Werkzeugwahl. Auch Multilingual Search & Synthesis und EU License Research liefen auf P1 stark.

Schwächer ist die operative Präzision. Beim URL-Construction-Test, der die eigenständige Ableitung einer Zieladresse und den anschließenden Fetch prüft, ist die Richtung korrekt, aber nicht deterministisch genug für robuste Pipelines. Kritischer ist, dass der Tool-Call insgesamt nicht valide war. Das ist kein reines Qualitätsdetail, sondern ein Integrationsproblem auf Protokollebene. Für MCP-Umgebungen heißt das: vor den produktiven Einsatz gehört ein strikter Wrapper mit Schema-Validierung, Argument-Normalisierung und Abbruch bei ungültigen Calls.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die P2-Leistung bleibt deutlich hinter der Tool-Ausführung zurück. In HTTP Fetch & Extract, URL Construction & Fetch und Multilingual Search & Synthesis fasst es Ergebnisse brauchbar zusammen, aber nicht präzise genug für Workflows, in denen exakte Fakten, Bedingungen oder Versionsstände erhalten bleiben müssen. Das Modell findet Informationen öfter, als es sie sauber in eine belastbare Antwort überführt.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, gab es keine erkannte Halluzination. Das ist das wichtigste Entlastungssignal dieses Laufs. Gleichzeitig ist P2 dort nur 40. Das Modell erfindet also nicht offen, verdichtet aber zu unscharf, um in Compliance-nahen Pfaden ohne Nachkontrolle Vertrauen zu tragen.

Fehlerresilienz

Beim 404-Test, der transparentes Fehlverhalten statt erfundenem Seiteninhalt verlangt, reagiert das Modell akzeptabel. Es halluziniert keinen Ersatzinhalt. P2 60 zeigt aber, dass die Fehlerkommunikation eher ausreichend als vorbildlich ist. Für Produktion ist das tragbar, solange der Orchestrator Fehlerpfade selbst strikt behandelt und keine implizite Weiterverarbeitung aus Modelltext ableitet.

Souveränitätsprofil

Lokal betreibbar und mit 68.33 Combined leicht über dem Fleet-Ø von 67.80. Der Sovereignty Gap ist n/a-Punkte unter dem Fleet-Ø von 67.80.

Fazit & Empfehlung

Geeignet für lokale, souveräne MCP-Pipelines mit menschlicher Aufsicht oder programmatischer Zweitprüfung, vor allem für Recherche, Suchschritt-Auswahl und mehrsprachige Vorarbeit. Nicht geeignet als ungeprüfte Endinstanz für Compliance, Vertragslogik, Lizenzbewertung oder andere Pfade, in denen die Antwort den Tool-Befund exakt und protokolltreu repräsentieren muss. Wer es einsetzt, sollte die Stärke in der Werkzeugwahl nutzen und die Schwäche in Call-Validität und Verdichtung durch harte Guardrails ausgleichen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.