Gemma 4 ARA 26B-A4B Q5_K_M (GGUF)

Gemma 4 ARA 26B-A4B liegt hier als Community GGUF in Q5_K_M vor. Das Modell basiert auf Googles multimodaler Gemma 4 Architektur mit MoE und 256K Kontext und ist für lokale Nutzung mit reduziertem Speicherbedarf vorbereitet; die ARA-Verarbeitungskette deutet auf eine modifizierte Community Distribution hin.

Google Version 4 Kommerzielle Nutzung erlaubt MoE 25.2 B (4 B aktiv) 256 K Context 06/2025 $0 / $0 per 1M

  • Restricted Weights
  • Workstation
  • LCL
  • Multimodal
  • Community-Quant
  • Interactive

Sovereign Risk: MEDIUM Open-Weights-Basismodell von Google DeepMind (USA), in dieser Variante (ARA/APEX Q5_K_M, 2-Pass) als Community-Quant verfügbar. Provenance-Risiko gegenüber dem Original-Release leicht erhöht, da Verarbeitungskette (Custom-Tuning + 2-Pass-Quantisierung) nicht offiziell von Google dokumentiert ist und die Nachvollziehbarkeit der Modifikationen begrenzt ist.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
73.04
Routine
46.19
Reasoning
26.85

Rank #40

LLM Judge Avg
3.64
100% Coverage
Avg Task Duration
24.07
️ Interactive
Token Rate
53.88
Output Rate
P95 Latency
65.16
Top 5 %
Total Tokens
61.7K
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 61.7K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) Bestes Modell Ø Alle Modelle
Code Quality 74.9
CLI Benchmark 90
Logical Reasoning 68.72
UX Writing 67.35
Documentation 68.44
Content Transform. 72.33
Cultural Intelligence 77.6
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil