Gemma 4 ARA 26B-A4B Q5_K_M (GGUF)
Gemma 4 ARA 26B-A4B liegt hier als Community GGUF in Q5_K_M vor. Das Modell basiert auf Googles multimodaler Gemma 4 Architektur mit MoE und 256K Kontext und ist für lokale Nutzung mit reduziertem Speicherbedarf vorbereitet; die ARA-Verarbeitungskette deutet auf eine modifizierte Community Distribution hin.
- Restricted Weights
- Workstation
- LCL
- Multimodal
- Community-Quant
- Interactive
Sovereign Risk: MEDIUM Open-Weights-Basismodell von Google DeepMind (USA), in dieser Variante (ARA/APEX Q5_K_M, 2-Pass) als Community-Quant verfügbar. Provenance-Risiko gegenüber dem Original-Release leicht erhöht, da Verarbeitungskette (Custom-Tuning + 2-Pass-Quantisierung) nicht offiziell von Google dokumentiert ist und die Nachvollziehbarkeit der Modifikationen begrenzt ist.
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Silver
- 73.04
- Routine
- 46.19
- Reasoning
- 26.85
- LLM Judge Avg
- 3.64 / 5
- 100% Coverage
- Avg Task Duration
- 24.07s
- ️ Interactive
- Token Rate
- 53.88tok/s
- Output Rate
- P95 Latency
- 65.16s
- Top 5 %
- Total Tokens
- 61.7K
- Output Volume
- Cost per 1K
- $0
- USD / 1K Requests
- Benchmark Cost
- $0
- Total · 61.7K tok
Benchmark-Module
7 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian