Gemma 4 26B A4B Instruct (Unsloth Q5_K_XL MTP)

Gemma 4 26B-A4B Instruct als Q5-Quantisierung von Unsloth, eine MoE-Variante mit Multi-Token-Prediction für schnellere lokale Inferenz. Von 25,2 Milliarden Gesamtparametern sind pro Token nur 3,8 Milliarden aktiv, das Kontextfenster umfasst 128.000 Tokens. Unter Apache-2.0-Lizenz lokal betreibbar ohne externe Cloud-Verbindung, mit konfigurierbaren Thinking-Modi für tiefere Reasoning-Schritte.

Google Version 4 Kommerzielle Nutzung erlaubt MoE 25.2 B (3.8 B aktiv) 256 K Context 01/2025 $0 / $0 per 1M

Open Weights
Workstation
SPRK
Text
Agentic Orchestrator
Real-Time

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	95	40	62
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	35	20	27.5

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

27.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.5; First Request

MCP: 0.68; Protocol Latency

Synthesis: 4.05; Response Generation

Total: 37.4; Sum of All Phases

Token: 9789; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil das Modell brauchbare Tool-Ausführung zeigt, aber mit ungültigem Tool-Call und schwacher Synthesetreue kein verlässlicher Endpunkt für autonome MCP-Pipelines ist.

Tool-Execution-Profil

Das Ausführungsprofil ist auf den ersten Blick solide. Der Tool-Execution-Score von 78.33 zeigt, dass das Modell Werkzeuge meist zweckmäßig einsetzt. Besonders wichtig: Beim Web-Search-and-Tool-Selection-Test, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, wählt es mit P1=100 erkennbar das richtige Werkzeug. Das spricht gegen bloßes Musterfolgen und für echte Werkzeugwahl im Kontext.

Beim URL-Construction-and-Fetch-Test, der die eigenständige Ableitung einer Ziel-URL misst, bleibt es mit P1=80 brauchbar, aber nicht deterministisch genug für fragile Produktionspfade. Der globale Befund „Tool-Call valide: False“ wiegt deshalb schwerer als die Teil-Scores. Das Modell versteht den Ablauf meist, hält ihn aber nicht durchgehend protokollkonform ein. Positiv ist, dass kein Retry erforderlich war. Das Problem liegt daher eher in der Erstpräzision des Calls als in grundlegendem Missverständnis des MCP-Schemas.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Der P2-Wert von 50.00 ist der eigentliche Bremsfaktor dieses Modells. In einfachen Abruf- und Extraktionsaufgaben bleibt die Verdichtung noch brauchbar, aber nicht scharf. Bei EU License Research, das aktuelle Lizenzrestriktionen aus Web-Quellen erzwingen soll, fällt die Zusammenführung mit P2=40 klar ab. Noch kritischer ist Multilingual Search and Synthesis mit Combined 28. Für mehrsprachige Recherche- und Berichtspipelines ist das zu schwach.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Urteil vorsichtig positiv. Im Honeypot EU License Research wurde keine Halluzination erkannt. Das Modell hat also das Vertrauensfundament nicht gebrochen. Trotzdem liefert es keine saubere, belastbare Verdichtung der beschafften Inhalte. Für Compliance-nahe Workflows ist das besser als freies Erfinden, aber noch nicht gut genug für ungeprüfte Übergabe.

Fehlerresilienz

Akzeptabel für Produktion mit Aufsicht. Beim 404-Test, der prüft, ob ein fehlgeschlagener Tool-Call transparent behandelt wird, halluziniert das Modell keinen Ersatzinhalt. P2=60 ist kein Glanzwert, aber die Reaktion bleibt ehrlich. Das ist der entscheidende Punkt. Ein Modell, das Fehler sichtbar macht statt Seiteninhalt zu erfinden, lässt sich mit Guardrails und Fehlerpfaden betreiben.

Souveränitätsprofil

Lokal betreibbar und damit für souveräne Deployments attraktiv. Mit 64.08 Combined liegt es 3.85 Punkte unter dem Fleet-Ø von 67.93. Das ist konkurrenzfähig genug für lokale Tool-Orchestrierung, aber nicht stark genug, um Qualitätsdefizite in der Synthese zu kaschieren.

Fazit & Empfehlung

Geeignet für lokal betriebene MCP-Pipelines, in denen das Modell primär Werkzeuge auswählt, Abrufe anstößt und Fehler transparent meldet. Nicht geeignet als autonomer Abschlussagent für Compliance, mehrsprachige Recherche oder präzise Executive Summaries. Empfehlung: als orchestrierender Zwischenagent mit nachgelagerter Validierung oder zweitem Synthese-Schritt einsetzen, nicht als alleinige Instanz für finale Nutzerantworten.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.