Gemma 4 26B-A4B Instruct (QAT, UD-Q4)

Gemma 4 26B-A4B Instruct als QAT UD-Q4 GGUF via llama.cpp auf DGX Spark betrieben. QAT (Quantization-Aware Training) produziert eine präzisere Q4-Variante als nachträgliche Quantisierung. MoE-Architektur: 25,2B Gesamtparameter, ~4B aktiv pro Token. UD-Q4 (Unsloth Dynamic Q4) ist ein optimiertes Mixed-Precision-Format das Qualität bei geringem VRAM-Bedarf maximiert.

Google Version UD-Q4 (GGUF/QAT)/SPRK Kommerzielle Nutzung erlaubt MoE 25.2 B (4 B aktiv) 256 K Context 06/2025 $0 / $0 per 1M

  • Restricted Weights
  • Workstation
  • LCL
  • Vision-Capable
  • Thinking
  • Interactive

Sovereign Risk: MEDIUM Gemma-Lizenz (Google Gemma Terms of Use) ist restriktiv – kommerzielle Nutzung mit Auflagen (nicht Apache 2.0). Google DeepMind ist US-Unternehmen (CLOUD Act-Exposition bei API-Nutzung). Weights sind öffentlich auf Hugging Face verfügbar, lokaler Betrieb möglich.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
71.31
Routine
43.96
Reasoning
27.34

Rank #51

LLM Judge Avg
3.69
100% Coverage
Avg Task Duration
32.1
️ Interactive
Token Rate
43.31
Output Rate
P95 Latency
72.03
Top 5 %
Total Tokens
118.7K
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 118.7K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 26B-A4B Instruct (QAT, UD-Q4) Bestes Modell Ø Alle Modelle
Code Quality 69.3
CLI Benchmark 89.45
Logical Reasoning 66.64
UX Writing 68.5
Documentation 59.41
Content Transform. 73.08
Cultural Intelligence 81.3
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil