Gemma 4 E4B

Was die meisten Edge-Modelle nicht können: Text, Bild, Audio und Video in einem einzigen Gewichtspaket verarbeiten, ohne separate Multimodal-Projektor-Datei. Gemma 4 E4B nutzt Per-Layer-Embeddings für 4,5 Milliarden effektive Parameter und läuft mit rund 5 Gigabyte VRAM auf Edge-Hardware. Konfigurierbare Thinking-Modi und 128.000-Token-Kontext unter Apache-2.0-Lizenz runden das Profil ab.

Google Version GGUF (E4B) Kommerzielle Nutzung erlaubt Dense 4.5 B (4.5 B aktiv) 128 K Context 01/2025 $0 / $0 per 1M

Open Weights
Edge
M4APL
Text
Vision
Audio
Video
Instruction-Tuned
Interactive

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 3.64; First Request

MCP: 0.96; Protocol Latency

Synthesis: 15.31; Response Generation

Total: 119.46; Sum of All Phases

Token: 14114; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung verlässlich ist und keine Halluzination im Tool-Kontext erkannt wurde, die Verdichtung der Ergebnisse aber zu oft nur durchschnittlich bleibt.

Tool-Execution-Profil

Gemma 4 E4B ist im MCP-Rahmen klar verwendbar. Die Tool-Calls waren valide, ein Retry war nicht nötig, und der Tool-Execution-Wert zeigt, dass das Modell Infrastruktur sauber anspricht statt am Protokoll zu scheitern. Besonders wichtig: Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Fetch verlangt, erkennt es korrekt, dass zuerst gesucht werden muss. Das spricht gegen bloßes Musterfolgen und für brauchbare Werkzeugwahl.

Weniger stark ist es beim URL-Construction-Test, der die Ziel-URL aus eigenem Wissen ableiten und dann fetch ausführen lässt. Dort ist die Leistung noch brauchbar, aber nicht präzise genug für streng deterministische Pipelines. Das Muster ist damit klar: gute Entscheidung für den Werkzeugtyp, etwas weniger zuverlässig bei der exakten Ausformulierung des konkreten Targets.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur mit Vorbehalt. Die P2-Qualität bleibt über die Aufgaben hinweg sichtbar hinter der Ausführung zurück. Gemma 4 E4B holt Informationen meist korrekt ein, formuliert die Zusammenführung aber oft zu knapp oder mit begrenzter Präzision. Für einfache Extraktion und kurze Statusantworten reicht das. Für Compliance-Zusammenfassungen, verdichtete Research-Memos oder mehrschrittige Entscheidungsbegründungen ist das zu wenig robust.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal besser. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen kommen, wurde keine Halluzination erkannt. Der niedrige Synthese-Wert dort ist deshalb eher ein Verdichtungsproblem als ein Vertrauensbruch. Für Produktionsbetrieb ist das ein wesentlicher Unterschied.

Fehlerresilienz

Beim Test Tool Failure Handling (404), der den Umgang mit fehlschlagenden Tool-Calls misst, reagiert das Modell akzeptabel. Es erfindet trotz 404 keinen Seiteninhalt und bleibt damit innerhalb der tatsächlichen Systemlage. Die Fehlerkommunikation ist nicht besonders stark verdichtet, aber transparent genug für produktive Pipelines. Das ist die Mindestanforderung, und sie wird erfüllt.

Souveränitätsprofil

Lokal betreibbar: ja. Fleet-kompetitiv: knapp darunter. Das Modell liegt 1.37 Punkte unter dem Fleet-Ø von 67.84 und bietet damit eine brauchbare lokale Option ohne externen Datentransfer. Für souveräne Desktop-Deployments ist das ein solides Profil.

Fazit & Empfehlung

Geeignet für lokale MCP-Pipelines mit klaren Tool-Grenzen, etwa Web-Recherche, einfache Fetch-Extraktion, multilingualen Basisabgleich und transparente Fehlerpfade. Nicht die richtige Wahl für Pipelines, in denen die eigentliche Wertschöpfung aus präziser Verdichtung, juristisch belastbarer Zusammenfassung oder URL-Genauigkeit unter wenig Führung entsteht. Wenn die Infrastruktur die Synthese nachgelagert absichert oder Outputs eng strukturiert, ist das Modell gut einsetzbar.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.