Gemma 4 E4B (llama.cpp, GGUF) · LLM Model Review

Mit einem Gesamtscore von 71.63% und dem Speed Profile Badge Interactive Tool Expert tritt Gemma 4 E4B (llama.cpp, GGUF) als lokaler Allrounder an, der nicht glänzen will, sondern liefern. Das gelingt oft erstaunlich gut: Das Modell ist schnell, breit einsetzbar und selten peinlich. Aber es hat eine klare Charakterkante: Es denkt ordentlich, schreibt gern zu viel und verliert unter harten Formvorgaben zuerst die Disziplin, nicht die Substanz. Sovereign Risk: MEDIUM — Google DeepMind ist ein US-Anbieter und unterliegt dem CLOUD Act; bei diesem lokal betriebenen Open-Weights-Setup greift das Risiko vor allem über die Herkunft der Gewichte, nicht über laufende API-Datenflüsse.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	54.53 s	Akzeptabel	Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar.

Einordnung: Generalist, Desktop-Klasse, Hybrid-Architektur

Die Vorabklassifikation als General, Instruct passt ziemlich genau zum beobachteten Verhalten. Gemma 4 E4B (llama.cpp, GGUF) ist kein Spezialist, der in einer Nische alles zerlegt. Es ist ein Generalist mit Instruct-Temperament. Also ein Modell, das klare Anweisungen meist direkt umsetzt, eher zielorientiert als essayistisch arbeitet und seine Stärken in alltagstauglicher Breite ausspielt.

Wichtig ist dabei der Maßstab. Dieses Modell ist als Generalist eingestuft, gehört zur Desktop-Klasse und nutzt eine hybride Architektur mit 8.0 Milliarden Parametern gesamt, davon 4.5 Milliarden aktiv. Genau diese aktiven 4.5 Milliarden sind der faire Referenzpunkt. Wer hier Frontier-Tiefe erwartet, misst mit dem falschen Zollstock. Für ein Desktop-Modell dieser Kapazitätsklasse ist die Leistung respektabel. Für ein Sicherheitsaudit ohne menschliche Kontrolle reicht sie nicht.

Die Hybrid-Bauweise, hier als neuartige Parameterverteilung statt klassischem Dense-Transformer, zeigt sich im Charakter des Modells. Es wirkt effizienter und fokussierter, als die Rohzahl von 8 Milliarden vermuten lässt, stößt aber bei Tiefe, Abdeckung und formaler Präzision sichtbar an Grenzen. Anders gesagt: kein Taschenmesser für die Chirurgie, aber ein überraschend gutes Werkzeug für den Werkbank-Alltag.

Geschwindigkeit und Laufzeitverhalten

Der Performance-Teil fällt erfreulich nüchtern aus. Gemma 4 E4B (llama.cpp, GGUF) lief als lokales Modell auf einem Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) und erreichte laut Leaderboard 48.61 Tokens pro Sekunde. Das ist in dieser Klasse ein guter Wert. Nicht spektakulär, aber schnell genug, um sich im Alltag nicht wie ein Batch-Job anzufühlen.

Der Badge Interactive Tool Expert ist dabei mehr als ein Marketing-Aufkleber. Er signalisiert, dass das Modell typischerweise für interaktive Arbeitsabläufe taugt: CLI-Hilfe, Redaktionsumbauten, Dokumentationsarbeit, strukturiertes Umschreiben, punktuelle Analyse. Genau dort sitzt Gemma 4 E4B (llama.cpp, GGUF) auch im Test am bequemsten. Es ist kein Rennwagen, aber ein verlässlicher Kombi mit gutem Anzug.

Interessant ist die Token-Ökonomie. Trotz durchweg grüner Statuswerte bei den Modulen produziert das Modell oft mehr Text als der Flotten-Median. Besonders auffällig sind Cultural Intelligence mit 2.28×, UX Writing mit 1.72× und Content Transformation mit 1.58× gegenüber dem Median. Bei einem lokalen Modell ist das vor allem ein Latenzthema. Mehr Output heißt längere Wartezeit und mehr Rechenarbeit auf dem Testsystem. Immerhin bleibt es innerhalb der Budgets. Das Modell redet zu viel, aber nicht bis zur Selbstsabotage.

Code Quality und Security: brauchbar, aber nicht auditfest

Die Code-Qualität ist der Bereich, in dem Gemma 4 E4B (llama.cpp, GGUF) gleichzeitig Kompetenz und Grenze am klarsten zeigt. Der Subscore von 71.0 wirkt zunächst solide. Im Detail ist das Urteil schärfer: Das Modell erkennt viele klassische Schwachstellen, formatiert seine Analyse sauber und liefert oft verwertbare Fix-Hinweise. Es scheitert aber an Vollständigkeit, sobald ein Security-Review nicht nur offensichtliche Fehler, sondern auch versteckte Ketten und implizite Risiken verlangt.

Ein besonders aufschlussreicher Fall ist die Sicherheitsanalyse eines Web-Stacks, in der das Modell 11 Schwachstellen identifizierte, während der Referenzstandard 19 erwartete. Erkannt wurden unter anderem Login-SQL-Injection, Path Traversal, XSS, Klartext-Passwörter, unsicheres Session-Handling und Type Juggling. Das ist keine schlechte Liste. Das Problem ist die Lücke dazwischen. Es fehlten unter anderem eine SQL-Injection in einer Delete-Query, eine kritische IDOR-Stelle bei einem Profilupdate, Session Fixation, schwache Reset-Token, fehlender CSRF-Schutz, fest codierte Secrets und eine fehlende Ablaufzeit für Reset-Token.

Das klingt nach Detailkritik, ist es aber nicht. In Security-Fragen ist Vollständigkeit keine Kür. Wer acht von neunzehn Lücken übersieht, hat keinen schlechten Tag, sondern keine Freigabe. Besonders kritisch ist, dass das Modell die gefährlichen Verkettungen nicht sauber aufspannt. Der Judge bemängelte fehlende Angriffsketten, fehlende Proof-of-Concepts und zu flache Erklärungen bei komplexeren Schwachstellen. Das Modell sieht Symptome. Die Systematik dahinter erfasst es nur teilweise.

Trotzdem sollte man die Leistung nicht unfair kleinreden. Für einen Desktop-Generalisten mit 4.5 Milliarden aktiven Parametern ist diese Security-Sensibilität beachtlich. Gemma 4 E4B (llama.cpp, GGUF) kann Code-Reviews vorfiltern, offensichtliche Schwachstellen benennen und Entwicklern eine erste Arbeitsliste liefern. Es ersetzt aber keinen erfahrenen Security Engineer. Wer das Modell allein auf ein reales Audit loslässt, spart erst am Review und zahlt später am Incident.

CLI und operative Präzision

Im CLI Benchmark erreicht das Modell 81.12. Das ist ein gutes Ergebnis, vor allem weil es zur Instruct-Einstufung passt. Gemma 4 E4B (llama.cpp, GGUF) scheint konkrete operative Aufgaben gern zu mögen: klare Zielvorgabe, strukturiertes Format, wenig Raum für philosophische Abschweifung. Genau hier spielt ein Instruct-Modell seine beste Rolle. Es antwortet schneller, direkter und mit geringerem Interpretationsballast als viele reasoning-lastige Schwergewichte.

Das bedeutet nicht, dass jede Shell-Zeile blind sitzen muss. Aber das Muster ist klar: Wenn die Aufgabe präzise gestellt ist, liefert das Modell in der Regel präzise zurück. Für lokale Tool-Unterstützung, Terminal-Erklärungen oder den ersten Entwurf von Kommandos ist das ein echter Praxiswert. Die Maschine will arbeiten, nicht dozieren.

Reasoning und Logik: ordentlich denkend, aber nicht immer sauber gehorchend

Im Bereich Logical Reasoning steht ein Subscore von 70.38. Das ist kein Denkgenie, aber auch kein Blender. Der qualitative Eindruck passt dazu. In klassischen Logikaufgaben findet das Modell den richtigen Kern, erklärt seine Lösung schrittweise und bleibt nachvollziehbar. Beim bekannten Zwei-Wächter-Rätsel etwa landet es korrekt bei der doppelten Umkehrlogik: Frage einen Wächter, was der andere sagen würde, und nimm die entgegengesetzte Tür. Inhaltlich sitzt das.

Die Schwäche liegt nicht primär im Denken, sondern in der Ausführung unter Zusatzauflagen. Das Modell liefert die Lösung, aber nicht immer in der sprachlichen oder didaktischen Strenge, die der Prompt verlangt. Der Judge kritisierte etwa gemischte Sprache innerhalb der Antwort und geringere pädagogische Tiefe als im Referenzstandard. Das ist typisch für ein General-Instruct-Modell dieser Klasse: ausreichend klug für die Aufgabe, aber nicht immer präzise genug im letzten Meter.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 70%, was dem Niveau anderer Modelle entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal. Dieser Abzug ist methodisch gewollt.

Hinzu kommt ein dokumentierter Sprachfehler im Reasoning-Modul. In einer Metakognitions-Aufgabe ignorierte das Modell die explizite Sprachanweisung und antwortete auf Englisch, obwohl Deutsch gefordert war. Das ist nicht bloß kosmetisch. In produktiven Umgebungen mit fester Zielsprache, etwa Support, Redaktion oder Compliance-Dokumentation, ist so ein Ausreißer ein echter Fehltritt.

In derselben Aufgabe verhängte das System einen Language-Mismatch-Abzug, weil die Antwort nicht der geforderten Sprache entsprach. Die inhaltliche Qualität der Antwort ist damit zweitrangig. Der Punktverlust entsteht aus mangelnder Instruktions-Compliance, nicht aus falscher Logik. Das sollte man Gemma 4 E4B (llama.cpp, GGUF) deutlich ankreiden. Ein Modell, das denkt, aber die Sprache wechselt, ist im Zweifel wie ein guter Mechaniker, der die falsche Schraube anzieht.

UX Writing: funktional stark, ohne den letzten Funken

Mit 70.65 im Bereich UX Writing & Microcopy zeigt Gemma 4 E4B (llama.cpp, GGUF) eine angenehme Tugend: Es versteht, was eine Aufgabe will, und liefert etwas, das man tatsächlich weiterverwenden kann. In einer anspruchsvolleren Redesign-Aufgabe erkannte das Modell die nötigen Probleme, lieferte eine optimierte Tabelle und nannte psychologische Prinzipien korrekt. Die Mindestanforderungen erfüllte es sauber.

Der Abstand zur Referenz lag in der Tiefe. Statt acht klar ausgearbeiteten Problemen fand das Modell vier. Es optimierte, aber ohne die feineren Elemente wie Buttons, dynamische Zusammenfassungen oder belastbare Vorher-Nachher-Metriken. Es benannte psychologische Prinzipien, aber ohne den Unterbau, der aus brauchbarer UX-Arbeit wirklich belastbare UX-Arbeit macht. Für General-Audience-Content reicht das. Für ein Team, das mit Design-Rationalen argumentieren muss, bleibt es zu dünn.

Das ist kein Verriss, sondern eine Charakterbeschreibung. Gemma 4 E4B (llama.cpp, GGUF) schreibt wie jemand, der sein Handwerk kann, aber nicht jede Entscheidung bis zur Materialkunde begründet. Man bekommt funktionale Mikrotexte und vernünftige Struktur. Man bekommt selten jene Präzision, die ein Senior-UX-Writer aus der Hüfte abliefert.

Content Transformation: stark im Umbau, schwach beim Bremsen

Mit 72.58 im Bereich Content Transformation & Adaption zeigt das Modell eine seiner praktischsten Stärken. Es kann Material umformen, umschreiben, strukturieren und an neue Zielmedien anpassen. Besonders bei einer Video-Skript-Transformation lieferte es eine inhaltlich überzeugende, produktionsnahe Antwort mit Zeitstempeln, visuellen Hinweisen, Produktions-Cues, Hooks und CTA. Der Judge nannte das Ergebnis zurecht production-ready. Das ist ein ernst zu nehmendes Lob.

Gerade weil die Arbeit inhaltlich gut ist, wiegt die formale Schwäche hier umso schwerer. Das Modell schreibt in diesem Modul wiederholt zu lang. Und zwar nicht als Zufall, sondern als Muster. Das Längenproblem ist kein isolierter Ausreißer. Über mehrere Aufgaben im Content-Transformation-Bereich zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es das Wortlimit als erste Bedingung. Betroffen waren unter anderem eine kurze Transformationsaufgabe mit 250-Wörter-Limit und eine Videoskript-Aufgabe mit 900-Wörter-Limit.

In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 auf 315 Wörter, also auf 126% des Limits. Das System verhängte einen automatischen Abzug von 20% beziehungsweise 16.32 Punkten. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon.

In einer weiteren Aufgabe im selben Modul überschritt das Modell die explizite Wortvorgabe von 900 auf 1193 Wörter, also auf 133% des Limits. Dafür gab es erneut einen automatischen Abzug von 20% beziehungsweise 18.00 Punkten. Auch hier gilt: Der Text kann inhaltlich stark sein, aber das Regelwerk zieht ihm konsequent die Punkte ab.

Genau das ist der Kern des Problems. Gemma 4 E4B (llama.cpp, GGUF) hat in diesem Modul keine Ideenknappheit, sondern Bremsversagen. Das Modell liefert oft gute Umbauten, doch sobald mehrere Anforderungen gleichzeitig gelten, hält es das Wortlimit nicht zuverlässig ein. Im echten Einsatz ist das lästig, in manchen Workflows sogar fatal. Wer Social Posts, Sprechertexte, Anzeigen oder CMS-Slots mit harten Längenfeldern produziert, braucht Nachkontrolle oder nachgeschaltetes Kürzen.

Documentation Quality: nützlich, aber nicht luxuriös

Der Subscore von 64.71 in Documentation Quality markiert den deutlichsten Leistungsabfall unter den Kernmodulen. Das bedeutet nicht, dass das Modell keine Dokumentation schreiben kann. Es bedeutet, dass seine Dokumentation öfter brauchbar als vorbildlich ist. Das passt ins Gesamtbild: Gemma 4 E4B (llama.cpp, GGUF) erklärt ordentlich, strukturiert grundsätzlich sauber und produziert genug Text, um Sachverhalte verständlich zu machen. Aber gerade dort, wo dokumentarische Exzellenz Tiefe, präzise Vollständigkeit und einen sehr ruhigen Aufbau verlangt, bleibt es hinter stärkeren Modellen zurück.

Die Token-Nutzung bestätigt das. Im Modul verbraucht es durchschnittlich 3486 Tokens gegenüber einem Fleet-Median von 2494, also 1.4×. Das ist noch im grünen Bereich, aber symptomatisch. Das Modell versucht fehlende Präzision gelegentlich mit mehr Text auszugleichen. Das ist kein Totalschaden. Es ist nur der alte Fehler vieler Assistenten: mehr Worte sind kein Ersatz für bessere Verdichtung.

Für interne Wissensbasen, erste Entwürfe von Handbüchern oder das Glätten technischer Rohfassungen taugt das Modell trotzdem. Wer Dokumentation dagegen als Produkt versteht, nicht als Nebenabfall der Entwicklung, wird die Grenzen schnell sehen.

Cultural Intelligence: sicher im Ton, etwas steif im Knie

Mit 75.6 gehört Cultural Intelligence zu den stärkeren Feldern des Modells. Das ist erfreulich, weil viele lokale Modelle hier entweder in Floskeln versinken oder soziale Nuancen zu hart glätten. Gemma 4 E4B (llama.cpp, GGUF) macht es besser. In einer Aufgabe zum Umschreiben einer toxischen Stellenanzeige entfernte es problematische Begriffe, korrigierte Geschlechterbias und hielt die geforderte reine Ausgabeform ohne Zusatzkommentar ein. Das ist die Pflicht, und die erfüllt es sauber.

Die Kür verpasst es knapp. Der Judge beschrieb den Ton als zu formell, zu korporativ, zu wenig einladend. Formulierungen wie „Wir erwarten“ wirkten weiterhin fordernd, obwohl die Aufgabe eigentlich auf inklusive, professionelle und motivierende Sprache zielte. Das ist eine feine, aber wichtige Beobachtung. Das Modell kann kulturelle Kanten abschleifen, aber es ersetzt sie manchmal durch HR-Lack. Sauber, glatt, etwas leblos.

Für reale Anwendungen heißt das: gut geeignet für Entschärfung, Sensibilisierung und sprachliche Professionalisierung. Weniger geeignet, wenn Nuance, Wärme und sozialer Takt nicht nur erwünscht, sondern das eigentliche Produkt sind.

Datenschutz und Datenhoheit

Bei diesem lokalen Setup ist die Lage günstiger, als der Name Google zunächst vermuten lässt. Das berechnete Sovereign Risk liegt bei MEDIUM. Die Begründung ist sauber: Die Gewichte stammen von Google DeepMind, also aus einem US-Kontext unter US-Recht inklusive CLOUD Act. Für den laufenden Einsatz dieses GGUF-Modells auf dem eigenen System ist der CLOUD-Act-Zugriff auf Prompts und Antworten jedoch nicht direkt einschlägig, weil keine Provider-API im Spiel ist.

Für europäische Unternehmen ist das ein wichtiger Unterschied. Die operative Datenhoheit liegt bei lokalem Betrieb faktisch beim Nutzer. Das eigentliche Restrisiko sitzt in der Weights-Provenienz, nicht in der Inferenzstrecke. Ein GDPR-DPA bei Google ist hier praktisch nachrangig, weil eben keine Google-Cloud verarbeitet. Relevanter ist die Lizenzlage: Die Google Gemma Terms of Use bleiben restriktiv. Lokal heißt souveräner. Es heißt nicht automatisch frei.

Fazit

Gemma 4 E4B (llama.cpp, GGUF) ist ein überraschend erwachsener Desktop-Generalist. Für seine Klasse liefert es breit brauchbare Ergebnisse, bleibt stabil, arbeitet mit 48.61 Tokens pro Sekunde flott genug für interaktive Nutzung und zeigt den sympathischen Instinkt, lieber etwas zu ausführlich als leichtfertig zu antworten. Über alle Tests hinweg keine nennenswerten Halluzinationen. Das Modell erfindet lieber nicht, als sich mit Fantasie zu blamieren.

Seine Schwäche ist nicht Dummheit, sondern Disziplin unter Mehrfachauflagen. Wortlimits reißt es wiederholt. Metakognitive Formatvorgaben verweigert es teils. In Security-Aufgaben erkennt es viel, aber nicht genug für vertrauenswürdige Vollständigkeit. Das ist ein brauchbares Profil für lokale Assistenz, Redaktionsumbau, Dokumentationsentwürfe, CLI-Hilfe und allgemeine Wissensarbeit. Es ist kein Modell für autonome Security-Prüfungen, kein verlässlicher Garant für streng limitierte Copy und kein Ersatz für finale Fachabnahme.

Unterm Strich hat Gemma 4 E4B (llama.cpp, GGUF) Charakter. Kein Blender, kein Spezialist, kein Totalausfall. Eher die seltene Sorte lokales Modell, die im Alltag mehr Arbeit abnimmt als neue erzeugt, solange man weiß, wo man es an die Leine nehmen muss. Die Weights-Provenienz bleibt dabei MEDIUM riskant, weil sie aus dem Google-DeepMind-Ökosystem stammt; im lokalen Betrieb bleibt die tatsächliche Datenhoheit jedoch beim Nutzer.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.