Gemma 4 31B Instruct (Unsloth Q8_K_XL MTP)

Gemma 4 31B Instruct als Q8-Quantisierung mit Multi-Token-Prediction von Unsloth, die hochpräziseste lokale Dense-Variante der Familie. Mit 31 Milliarden Parametern und 128.000 Tokens Kontextfenster liefert das Modell nahezu Vollpräzision bei deutlich erhöhter Token-Rate durch Speculative Decoding. Unter Apache-2.0-Lizenz lokal betreibbar ohne externe Cloud-Verbindung.

Google Version UD-Q8_K_XL (GGUF/MTP)/SPRK Kommerzielle Nutzung erlaubt Dense 31 B (31 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

  • Open Weights
  • Workstation
  • SPRK
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
73.39
Routine
45.07
Reasoning
28.32

Rank #31

LLM Judge Avg
3.73
100 Coverage
Avg Task Duration
41.94
️ Interactive
Token Rate
21.05
Output Rate
P95 Latency
95.87
Top 5 %
Total Tokens
44500
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 44500 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 31B Instruct (Unsloth Q8_K_XL MTP) Bestes Modell Ø Alle Modelle
Code Quality 74.4
CLI Benchmark 89
Logical Reasoning 75.11
UX Writing 62.81
Documentation 68.41
Content Transform. 72.65
Cultural Intelligence 79.16
Synthesis Quality 56.67
Tool Execution 83.33
ToolUse Score 68.33
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil