Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated)

Gemma 4 ARA 26B-A4B als Q5-Quantisierung der ARA-APEX-Community, eine Variante mit Adaptive Refusal Abliteration zur Entfernung der Sicherheitsfilter. Von 25,2 Milliarden Gesamtparametern sind pro Token etwa 4 Milliarden aktiv, das Kontextfenster umfasst 128.000 Tokens. Unter Apache-2.0-Lizenz lokal betreibbar ohne externe Cloud-Verbindung, mit unklarer Thinking-Funktion.

Google Version 4 Kommerzielle Nutzung erlaubt MoE 25.2 B (4 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

  • Open Weights
  • Workstation
  • SPRK
  • Text
  • Instruction-Tuned
  • Uncensored
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: MEDIUM Das Basismodell stammt von Google DeepMind (US-Jurisdiktion, CLOUD Act bei Cloud-Nutzung). Die Gewichte wurden durch ARA-APEX via Adaptive Refusal Abliteration (2-Pass Weight Modification) modifiziert, was die vollständige Nachvollziehbarkeit einschränkt. Bei rein lokaler Inferenz ist das CLOUD-Act-Risiko minimal, jedoch rechtfertigt die Community-Modifikationskette ein erhöhtes Provenance-Rating.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
72.89
Routine
45.54
Reasoning
27.35

Rank #36

LLM Judge Avg
3.6
100 Coverage
Avg Task Duration
24.8
️ Interactive
Token Rate
54.58
Output Rate
P95 Latency
65.16
Top 5 %
Total Tokens
63300
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 63300 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) Bestes Modell Ø Alle Modelle
Code Quality 74.9
CLI Benchmark 90
Logical Reasoning 68.16
UX Writing 67.35
Documentation 68.44
Content Transform. 72.33
Cultural Intelligence 77.6
Synthesis Quality 63.33
Tool Execution 90
ToolUse Score 76.33
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil