Gemma 4 12B Instruct Q8_K_XL (GGUF, UndiX-Derivative)
Gemma 4 12B Instruct (Q8_K_XL-GGUF, UndiX-Distribution) ist ein Mid-Size-Modell (12B) von Google DeepMind mit restriktiver Gemma-Lizenz, hier als 8-Bit-GGUF-Quantisierung via llama.cpp. 12B Parameter, 128K Token Kontextfenster, multimodale Unterstützung (Text + Bild + Video), 140+ Sprachen, konfigurierbarer Thinking-Modus. Q8-Quantisierung: nahe FP16-Qualität bei moderatem Speichermehrbedarf gegenüber Q4/Q6.
- Restricted Weights
- Desktop
- LCL
- Thinking
- Instruct
- Multimodal
- Batch
Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Gemma-Lizenz (Google Gemma Terms of Use) ist restriktiv und verbietet bestimmte kommerzielle Anwendungen. Q8_K_XL-Quantisierung ist nahe FP16-Qualität bei reduziertem Speicherbedarf.
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Silver
- 72.75
- Routine
- 43.76
- Reasoning
- 28.99
- LLM Judge Avg
- 3.68 / 5
- 100% Coverage
- Avg Task Duration
- 94.27s
- Batch
- Token Rate
- 12.8tok/s
- Output Rate
- P95 Latency
- 177.06s
- Top 5 %
- Total Tokens
- 79.2K
- Output Volume
- Cost per 1K
- $0
- USD / 1K Requests
- Benchmark Cost
- $0
- Total · 79.2K tok
Benchmark-Module
7 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian