Gemma 4 E4B (llama.cpp, GGUF)
Gemma 4 E4B ist eine kompakte Gemma-4-Variante von Google, hier als GGUF für lokale Ausführung verpackt. Die Card beschreibt eine effiziente PLE-basierte Architektur mit nur einem Teil aktiver Parameter pro Forward Pass. Sie eignet sich für alltägliche Instruct-Aufgaben auf Desktop-Hardware und bleibt durch die Gemma-Lizenz restriktiv.
- Restricted Weights
- Desktop
- LCL
- General
- Instruct
- Interactive
Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, jedoch ist der CLOUD Act bei lokal betriebenen Open-Weights-Modellen nicht direkt anwendbar.
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Silver
- 71.63
- Routine
- 44.8
- Reasoning
- 26.83
- LLM Judge Avg
- 3.55 / 5
- 100% Coverage
- Avg Task Duration
- 25.25s
- ️ Interactive
- Token Rate
- 48.61tok/s
- Output Rate
- P95 Latency
- 54.53s
- Top 5 %
- Total Tokens
- 81.8K
- Output Volume
- Cost per 1K
- $0
- USD / 1K Requests
- Benchmark Cost
- $0
- Total · 81.8K tok
Benchmark-Module
7 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Gemma 4 E4B (llama.cpp, GGUF)
Bestes Modell
Ø Alle Modelle
Code Quality
71
CLI Benchmark
81.12
Logical Reasoning
70.38
UX Writing
70.65
Documentation
64.71
Content Transform.
72.58
Cultural Intelligence
75.6
Benchmark Cost
$0
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian