Gemma 4 12B Instruct Q8_K_XL (GGUF, UndiX-Derivative)

Gemma 4 12B Instruct (Q8_K_XL-GGUF, UndiX-Distribution) ist ein Mid-Size-Modell (12B) von Google DeepMind mit restriktiver Gemma-Lizenz, hier als 8-Bit-GGUF-Quantisierung via llama.cpp. 12B Parameter, 128K Token Kontextfenster, multimodale Unterstützung (Text + Bild + Video), 140+ Sprachen, konfigurierbarer Thinking-Modus. Q8-Quantisierung: nahe FP16-Qualität bei moderatem Speichermehrbedarf gegenüber Q4/Q6.

Google Version 4 (Q8_K_XL GGUF) Kommerzielle Nutzung erlaubt Dense 12 B 128 K Context 06/2025 $0 / $0 per 1M

  • Restricted Weights
  • Desktop
  • LCL
  • Thinking
  • Instruct
  • Multimodal
  • Batch

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Gemma-Lizenz (Google Gemma Terms of Use) ist restriktiv und verbietet bestimmte kommerzielle Anwendungen. Q8_K_XL-Quantisierung ist nahe FP16-Qualität bei reduziertem Speicherbedarf.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
72.75
Routine
43.76
Reasoning
28.99

Rank #43

LLM Judge Avg
3.68
100% Coverage
Avg Task Duration
94.27
Batch
Token Rate
12.8
Output Rate
P95 Latency
177.06
Top 5 %
Total Tokens
79.2K
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 79.2K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 12B Instruct Q8_K_XL (GGUF, UndiX-Derivative) Bestes Modell Ø Alle Modelle
Code Quality 77.1
CLI Benchmark 87.22
Logical Reasoning 68.75
UX Writing 73.88
Documentation 67.69
Content Transform. 73.61
Cultural Intelligence 67.6
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil