Gemma 4 26B-A4B Instruct (QAT, UD-Q4)
Gemma 4 26B-A4B Instruct als QAT UD-Q4 GGUF via llama.cpp auf DGX Spark betrieben. QAT (Quantization-Aware Training) produziert eine präzisere Q4-Variante als nachträgliche Quantisierung. MoE-Architektur: 25,2B Gesamtparameter, ~4B aktiv pro Token. UD-Q4 (Unsloth Dynamic Q4) ist ein optimiertes Mixed-Precision-Format das Qualität bei geringem VRAM-Bedarf maximiert.
- Restricted Weights
- Workstation
- LCL
- Vision-Capable
- Thinking
- Interactive
Sovereign Risk: MEDIUM Gemma-Lizenz (Google Gemma Terms of Use) ist restriktiv – kommerzielle Nutzung mit Auflagen (nicht Apache 2.0). Google DeepMind ist US-Unternehmen (CLOUD Act-Exposition bei API-Nutzung). Weights sind öffentlich auf Hugging Face verfügbar, lokaler Betrieb möglich.
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Silver
- 71.31
- Routine
- 43.96
- Reasoning
- 27.34
- LLM Judge Avg
- 3.69 / 5
- 100% Coverage
- Avg Task Duration
- 32.1s
- ️ Interactive
- Token Rate
- 43.31tok/s
- Output Rate
- P95 Latency
- 72.03s
- Top 5 %
- Total Tokens
- 118.7K
- Output Volume
- Cost per 1K
- $0
- USD / 1K Requests
- Benchmark Cost
- $0
- Total · 118.7K tok
Benchmark-Module
7 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian