Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated)

Gemma 4 ARA 26B-A4B als Q5-Quantisierung der ARA-APEX-Community, eine Variante mit Adaptive Refusal Abliteration zur Entfernung der Sicherheitsfilter. Von 25,2 Milliarden Gesamtparametern sind pro Token etwa 4 Milliarden aktiv, das Kontextfenster umfasst 128.000 Tokens. Unter Apache-2.0-Lizenz lokal betreibbar ohne externe Cloud-Verbindung, mit unklarer Thinking-Funktion.

Google Version 4 Kommerzielle Nutzung erlaubt MoE 25.2 B (4 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

  • Open Weights
  • Workstation
  • SPRK
  • Text
  • Instruction-Tuned
  • Uncensored
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: MEDIUM Das Basismodell stammt von Google DeepMind (US-Jurisdiktion, CLOUD Act bei Cloud-Nutzung). Die Gewichte wurden durch ARA-APEX via Adaptive Refusal Abliteration (2-Pass Weight Modification) modifiziert, was die vollständige Nachvollziehbarkeit einschränkt. Bei rein lokaler Inferenz ist das CLOUD-Act-Risiko minimal, jedoch rechtfertigt die Community-Modifikationskette ein erhöhtes Provenance-Rating.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
1.29
First Request
MCP
0.87
Protocol Latency
Synthesis
6.36
Response Generation
Total
51.14
Sum of All Phases
Token
9086
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am · Instruction-Tuned · Uncensored · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil das Modell Tool-Aufrufe zuverlässig und protokollkonform ausführt, aber die Verdichtung der Tool-Ergebnisse für belastbare Produktionsantworten zu ungleichmäßig bleibt.

Tool-Execution-Profil

Die operative Basis ist stark. P1 mit 90 zeigt, dass das Modell valide Tool-Calls erzeugt, MCP-konform bleibt und keinen Retry brauchte. Das ist für eine Tool-Pipeline der erste harte Filter, und den besteht es.

Wichtiger ist hier die Werkzeugwahl. Beim Test Web Search & Tool Selection, der prüft, ob ohne expliziten Hinweis statt fetch eine Suche nötig ist, erkennt das Modell die richtige Strategie sicher. Das spricht gegen ein starres Call-Muster und für echte situative Tool-Auswahl. Beim URL-Construction-Test, der die Ziel-URL aus Eigenwissen ableiten und dann korrekt abrufen lässt, ist es schwächer. Die URL-Konstruktion ist brauchbar, aber nicht präzise genug, um in deterministischen Pipelines als selbstverständlich zu gelten. Insgesamt wirkt das Modell bei der Tool-Wahl intelligenter als bei der exakten Vorbereitung einzelner Abrufe.

Synthesetreue

Wie gut verdichtet es? Nur solide. P2 mit 63.33 reicht für einfache Ergebniszusammenfassungen, aber nicht für Antworten, bei denen Nuancen, Einschränkungen oder exakt extrahierte Details erhalten bleiben müssen. Das sieht man besonders bei EU License Research, wo die Recherche zwar gelingt, die Zusammenführung der Ergebnisse aber zu flach bleibt, und bei Multilingual Search & Synthesis, wo die sprachübergreifende Recherche besser ist als die deutsche Endverdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal deutlich besser als die P2-Werte. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, wurde keine Halluzination erkannt. Das Modell bleibt also an die beschafften Inhalte gebunden, auch wenn es sie nicht immer präzise genug verdichtet.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparenten Umgang mit Tool-Fehlern gegen erfundenen Ersatzinhalt prüft, halluziniert das Modell keinen Seiteninhalt. P2 60 zeigt, dass die Fehlerkommunikation nicht besonders stark formuliert ist, aber sie bleibt ehrlich. Für produktive Pipelines ist das der entscheidende Punkt.

Souveränitätsprofil

Lokal betreibbar und fleet-kompetent genug für souveräne Setups. Mit einem Combined-Score von 76.33 liegt es 1.37 Punkte unter dem Fleet-Ø von 67.84. Auf lokaler Infrastruktur ist das ein tragfähiges Profil, auch wenn die Community-Quant-Provenienz für sensible Deployments separat abgesichert werden sollte.

Fazit & Empfehlung

Geeignet für MCP-gestützte Recherche-, Retrieval- und Orchestrierungs-Pipelines, in denen korrekte Tool-Nutzung und ehrlicher Umgang mit Fehlern wichtiger sind als perfekte Endredaktion. Nicht die richtige Wahl für Compliance-nahe, juristische oder andere hochpräzise Synthese-Stufen, in denen aus Tool-Ergebnissen belastbare Finalantworten entstehen müssen. Als lokaler Tool-Operator oder vorgeschalteter Recherche-Agent ist es sinnvoll. Als letzte Instanz für präzise Ergebnisverdichtung eher nicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.