Gemma 4 26B A4B Instruct (Unsloth Q5_K_XL MTP)

Gemma 4 26B-A4B Instruct als Q5-Quantisierung von Unsloth, eine MoE-Variante mit Multi-Token-Prediction für schnellere lokale Inferenz. Von 25,2 Milliarden Gesamtparametern sind pro Token nur 3,8 Milliarden aktiv, das Kontextfenster umfasst 128.000 Tokens. Unter Apache-2.0-Lizenz lokal betreibbar ohne externe Cloud-Verbindung, mit konfigurierbaren Thinking-Modi für tiefere Reasoning-Schritte.

Google Version 4 Kommerzielle Nutzung erlaubt MoE 25.2 B (3.8 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

  • Open Weights
  • Workstation
  • SPRK
  • Text
  • Agentic Orchestrator
  • Real-Time

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
73.99
Routine
45.67
Reasoning
28.32

Rank #26

LLM Judge Avg
3.75
98 Coverage
Avg Task Duration
12.19
Real-Time
Token Rate
80.98
Output Rate
P95 Latency
30.19
Top 5 %
Total Tokens
47600
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 47600 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 26B A4B Instruct (Unsloth Q5_K_XL MTP) Bestes Modell Ø Alle Modelle
Code Quality 74
CLI Benchmark 93
Logical Reasoning 73.95
UX Writing 69.43
Documentation 61.94
Content Transform. 79.77
Cultural Intelligence 75.32
Synthesis Quality 50
Tool Execution 78.33
ToolUse Score 64.08
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil