Gemma 4 12B Instruct Q8_K_XL (UndiX-Derivative)

Gemma 4 12B Instruct als Q8-Quantisierung der Unsloth-Community, die höchstpräzise Variante unter den 12B-Ausführungen. Mit zwölf Milliarden Parametern und 128.000 Tokens Kontextfenster liefert das Modell nahezu FP16-Qualität, ist auf lokalen Betrieb ohne Cloud-Anbindung ausgelegt und unter Apache-2.0-Lizenz voll kommerziell nutzbar.

Google Version 4 (Q8_K_XL GGUF) Kommerzielle Nutzung erlaubt Dense 12 B (12 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

  • Open Weights
  • Desktop
  • M4APL
  • Text
  • Instruction-Tuned
  • Batch

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
72.03
Routine
44.82
Reasoning
27.21

Rank #44

LLM Judge Avg
3.65
100 Coverage
Avg Task Duration
95.85
Batch
Token Rate
13.34
Output Rate
P95 Latency
175.89
Top 5 %
Total Tokens
86000
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 86000 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 12B Instruct Q8_K_XL (UndiX-Derivative) Bestes Modell Ø Alle Modelle
Code Quality 77.1
CLI Benchmark 87.22
Logical Reasoning 68.75
UX Writing 71.05
Documentation 66.77
Content Transform. 73.31
Cultural Intelligence 67.6
Synthesis Quality 43.33
Tool Execution 83.33
ToolUse Score 62.33
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil