Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated)

Gemma 4 ARA 26B-A4B als Q5-Quantisierung der ARA-APEX-Community, eine Variante mit Adaptive Refusal Abliteration zur Entfernung der Sicherheitsfilter. Von 25,2 Milliarden Gesamtparametern sind pro Token etwa 4 Milliarden aktiv, das Kontextfenster umfasst 128.000 Tokens. Unter Apache-2.0-Lizenz lokal betreibbar ohne externe Cloud-Verbindung, mit unklarer Thinking-Funktion.

Google Version 4 Kommerzielle Nutzung erlaubt MoE 25.2 B (4 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

Open Weights
Workstation
SPRK
Text
Instruction-Tuned
Uncensored
Agentic Orchestrator
Interactive

Sovereign Risk: MEDIUM Das Basismodell stammt von Google DeepMind (US-Jurisdiktion, CLOUD Act bei Cloud-Nutzung). Die Gewichte wurden durch ARA-APEX via Adaptive Refusal Abliteration (2-Pass Weight Modification) modifiziert, was die vollständige Nachvollziehbarkeit einschränkt. Bei rein lokaler Inferenz ist das CLOUD-Act-Risiko minimal, jedoch rechtfertigt die Community-Modifikationskette ein erhöhtes Provenance-Rating.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.29; First Request

MCP: 0.87; Protocol Latency

Synthesis: 6.36; Response Generation

Total: 51.14; Sum of All Phases

Token: 9086; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil das Modell Tool-Aufrufe zuverlässig und protokollkonform ausführt, aber die Verdichtung der Tool-Ergebnisse für belastbare Produktionsantworten zu ungleichmäßig bleibt.

Tool-Execution-Profil

Die operative Basis ist stark. P1 mit 90 zeigt, dass das Modell valide Tool-Calls erzeugt, MCP-konform bleibt und keinen Retry brauchte. Das ist für eine Tool-Pipeline der erste harte Filter, und den besteht es.

Wichtiger ist hier die Werkzeugwahl. Beim Test Web Search & Tool Selection, der prüft, ob ohne expliziten Hinweis statt fetch eine Suche nötig ist, erkennt das Modell die richtige Strategie sicher. Das spricht gegen ein starres Call-Muster und für echte situative Tool-Auswahl. Beim URL-Construction-Test, der die Ziel-URL aus Eigenwissen ableiten und dann korrekt abrufen lässt, ist es schwächer. Die URL-Konstruktion ist brauchbar, aber nicht präzise genug, um in deterministischen Pipelines als selbstverständlich zu gelten. Insgesamt wirkt das Modell bei der Tool-Wahl intelligenter als bei der exakten Vorbereitung einzelner Abrufe.

Synthesetreue

Wie gut verdichtet es? Nur solide. P2 mit 63.33 reicht für einfache Ergebniszusammenfassungen, aber nicht für Antworten, bei denen Nuancen, Einschränkungen oder exakt extrahierte Details erhalten bleiben müssen. Das sieht man besonders bei EU License Research, wo die Recherche zwar gelingt, die Zusammenführung der Ergebnisse aber zu flach bleibt, und bei Multilingual Search & Synthesis, wo die sprachübergreifende Recherche besser ist als die deutsche Endverdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal deutlich besser als die P2-Werte. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, wurde keine Halluzination erkannt. Das Modell bleibt also an die beschafften Inhalte gebunden, auch wenn es sie nicht immer präzise genug verdichtet.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparenten Umgang mit Tool-Fehlern gegen erfundenen Ersatzinhalt prüft, halluziniert das Modell keinen Seiteninhalt. P2 60 zeigt, dass die Fehlerkommunikation nicht besonders stark formuliert ist, aber sie bleibt ehrlich. Für produktive Pipelines ist das der entscheidende Punkt.

Souveränitätsprofil

Lokal betreibbar und fleet-kompetent genug für souveräne Setups. Mit einem Combined-Score von 76.33 liegt es 1.37 Punkte unter dem Fleet-Ø von 67.84. Auf lokaler Infrastruktur ist das ein tragfähiges Profil, auch wenn die Community-Quant-Provenienz für sensible Deployments separat abgesichert werden sollte.

Fazit & Empfehlung

Geeignet für MCP-gestützte Recherche-, Retrieval- und Orchestrierungs-Pipelines, in denen korrekte Tool-Nutzung und ehrlicher Umgang mit Fehlern wichtiger sind als perfekte Endredaktion. Nicht die richtige Wahl für Compliance-nahe, juristische oder andere hochpräzise Synthese-Stufen, in denen aus Tool-Ergebnissen belastbare Finalantworten entstehen müssen. Als lokaler Tool-Operator oder vorgeschalteter Recherche-Agent ist es sinnvoll. Als letzte Instanz für präzise Ergebnisverdichtung eher nicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.