Gemma 4 26B-A4B Instruct (QAT, UD-Q4)

Gemma 4 26B-A4B Instruct als QAT UD-Q4 GGUF via llama.cpp auf DGX Spark betrieben. QAT (Quantization-Aware Training) produziert eine präzisere Q4-Variante als nachträgliche Quantisierung. MoE-Architektur: 25,2B Gesamtparameter, ~4B aktiv pro Token. UD-Q4 (Unsloth Dynamic Q4) ist ein optimiertes Mixed-Precision-Format das Qualität bei geringem VRAM-Bedarf maximiert.

Google Version UD-Q4 (GGUF/QAT)/SPRK Kommerzielle Nutzung erlaubt MoE 25.2 B (4 B aktiv) 256 K Context 06/2025 $0 / $0 per 1M

Restricted Weights
Workstation
LCL
Vision-Capable
Thinking
Interactive

Sovereign Risk: MEDIUM Gemma-Lizenz (Google Gemma Terms of Use) ist restriktiv – kommerzielle Nutzung mit Auflagen (nicht Apache 2.0). Google DeepMind ist US-Unternehmen (CLOUD Act-Exposition bei API-Nutzung). Weights sind öffentlich auf Hugging Face verfügbar, lokaler Betrieb möglich.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver: 71.31

Routine: 43.96
Reasoning: 27.34

Rank #51

LLM Judge Avg: 3.69; 100% Coverage

Avg Task Duration: 32.1; ️ Interactive

Token Rate: 43.31; Output Rate

P95 Latency: 72.03; Top 5 %

Total Tokens: 118.7K; Output Volume

Cost per 1K: $0; USD / 1K Requests

Benchmark Cost: $0; Total · 118.7K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 26B-A4B Instruct (QAT, UD-Q4) Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Gemma 4 26B-A4B Instruct (QAT, UD-Q4)

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil