Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) · LLM Model Review

Mit einem Gesamtscore von 73.04% ist Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) kein Blender, sondern ein ernstzunehmendes lokales Arbeitsmodell mit dem Badge Interactive DevOps Expert. Das passt erstaunlich gut: Dieses Modell ist als Vision-Language-System eingestuft, gehört zur Workstation-Klasse und nutzt eine MoE-Architektur mit 25.2 Milliarden Gesamtparametern, aber nur 4.0 Milliarden aktiven Parametern pro Token. Genau das erklärt seinen Charakter: breiter als ein reiner Textspezialist, effizienter als die nackte Parameterzahl vermuten lässt, aber textlich eben nicht in jeder Disziplin so scharf wie die besten reinen Sprachmodelle. Sovereign Risk: MEDIUM — die Gewichte stammen aus einer Google-DeepMind-Linie unter US-Jurisdiktion, hinzu kommt das erhöhte Provenienzrisiko einer Community-Quant-Distribution mit nur begrenzt dokumentierter Verarbeitungskette.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	65.16 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen.

Stabilität ist hier die gute Nachricht. Auf dem NVIDIA DGX Spark (GB10 Grace Blackwell Superchip, ~115 GB Unified Memory) lief dieses lokale Modell ohne einen einzigen Ausfall durch den gesamten Parcours. Das ist für eine Workstation-Klasse mit Community-Quant wichtiger, als es auf den ersten Blick klingt. Wer lokal arbeitet, kämpft nicht nur gegen Modellqualität, sondern immer auch gegen Speichergrenzen, Quantisierungsnebenwirkungen und die schlichte Frage, ob ein Modell unter Last sauber stehen bleibt. Gemma tut das.

Die Kehrseite ist die Verteilung der Antwortzeiten. Mit 53.88 Tokens pro Sekunde wirkt das Modell auf dem Papier flott, und der Badge Interactive DevOps Expert signalisiert einen interaktiven Einsatz statt reiner Stapelverarbeitung. Das ist im Kern auch richtig. Nur zeigt der P95-Wert, dass sich die langen Antworten in einigen Fällen spürbar ziehen. Anders gesagt: Im Normalfall reagiert das Modell lebendig, in den Ausreißern bremst es den Nutzer aus. Für lokales Arbeiten ist das noch akzeptabel, für eng getaktete Agentenketten sollte man diesen Tail nicht ignorieren.

Architektur und Einordnung: starkes Textmodell, das eigentlich mehr kann als dieser Test zeigt

Man muss dieses Modell fair lesen. Die redaktionelle Einstufung als Vision-Language-Modell ist kein Dekor, sondern ein Warnschild gegen falsche Vergleiche. CrucibleMark misst hier ausschließlich den Textbetrieb. Damit testet er bei Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) nur einen Teil seiner eigentlichen Kompetenz. Wer dieses Modell allein an Texttabellen, UX-Skripten oder Logikrätseln misst, beurteilt einen Kombi nach seinem Kofferraum und ignoriert den Motor.

Dazu kommt die MoE-Bauweise. Entscheidend sind nicht die 25.2 Milliarden Gesamtparameter, sondern die 4.0 Milliarden aktiven Parameter. Das Modell spielt also eher in der Liga eines kompakten, gut organisierten Spezialistenteams als in der eines permanent voll aufgeladenen Schwergewichts. Die Folge ist typisch: gute Breitenleistung, überraschend starke Effizienz, aber keine allmächtige Textsouveränität. Für ein lokales Workstation-Modell ist das ein vernünftiger Kompromiss. Wer von der nackten Gesamtzahl Titanenleistung erwartet, liest Datenblätter wie Horoskope.

Code Quality und Security: ordentliches Fundament, aber ohne den letzten Biss

Der Security- und Code-Block ist einer der stärkeren Auftritte des Modells. 74.9% in Code Quality sind kein Zufall. In den Protokollen arbeitet Gemma sauber in deutscher Fachsprache, hält Tabellenformate ein und liefert überwiegend brauchbare Fixes. Das Entscheidende: Die Antworten klingen nicht nach auswendig gelerntem OWASP-Vokabular, sondern nach echter Mustererkennung im Code. SQL-Injection, XSS, Session Fixation, Path Traversal, schwache Token-Generierung, Type Juggling und CSRF wurden erkannt. Das ist die Pflicht. Die Kür wäre gewesen, die Sicherheitslage als zusammenhängendes Angriffssystem zu lesen.

Genau dort bleibt das Modell hinter den besten Sicherheitsanalysen zurück. In einem Audit übersah es 5 von 19 relevanten Schwachstellen, darunter den kritischen IDOR-Fall bei einem Profil-Update. Das ist kein Schönheitsfehler. Wer so etwas in einer echten Prüfung übersieht, lässt eine direkte Privilegieneskalation durchrutschen. Zusätzlich fehlten fest verdrahtete Secrets, Root-Datenbankzugänge ohne Passwort und die fehlende Ablaufzeit eines Reset-Tokens. Die einzelnen Erklärungen waren oft korrekt, aber zu atomar. Das Modell erkennt Schwachstellen, doch es denkt sie nicht konsequent als Angriffskette zu Ende.

Für die Praxis heißt das: Als lokaler Sicherheitsassistent eignet sich Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) gut für die erste Breite, für Triaging und für strukturiertes Auffinden typischer Fehlerklassen. Für rote Teams, High-Stakes-Audits oder alles, was nach Priorisierung und Kettenbildung verlangt, braucht es Nachkontrolle. Das Modell sieht viel. Es sieht nicht immer, wie die Teile gemeinsam explodieren.

CLI und DevOps: überraschend diszipliniert

Der CLI-Wert von 90.0% bestätigt den Speed-Badge mehr als jede Marketingfolie. Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) verhält sich im operativen Befehlsraum diszipliniert, knapp und ohne unnötigen Ballast. Das ist nicht trivial. Viele Modelle schreiben in Shell-Aufgaben erst einen Roman und dann den Befehl. Dieses hier macht den besseren Eindruck eines Admins, der verstanden hat, dass zwischen einem guten Kommando und einem kaputten System oft nur ein einziges fehlendes Flag liegt.

Dazu passt auch die Token-Ökonomie. Im CLI-Modul liegt das Modell mit 211 Tokens im Schnitt sogar leicht unter dem Fleet-Median von 219. Überhaupt bleibt es über alle budgetierten Module im grünen Bereich. Das Modell verhält sich token-ökonomisch. Für ein lokales Setup ist das keine Kostenfrage wie bei APIs, sondern eine Latenzfrage. Weniger Geschwätz heißt hier oft einfach: weniger Warten.

Reasoning und Logik: inhaltlich fähig, formal nicht immer gehorsam

Mit 68.72% im Logical-Reasoning-Bereich liefert Gemma kein Debakel, aber auch keinen intellektuellen Paukenschlag. Die interessante Pointe liegt im Protokoll: Dort ist das eigentliche Denken häufig besser als der Score vermuten lässt. In einem Wächter-Rätsel identifiziert das Modell korrekt die selbstreferenzielle Lösungsstrategie, prüft Alternativen und argumentiert logisch sauber. Der Richter moniert eher die Aufbereitung als den Kern. Das Modell denkt richtig, aber nicht immer didaktisch elegant.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den Tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 68.72%, was dem Niveau anderer Modelle entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.

Damit ist die Lage klarer, als es der Rohwert vermuten lässt. Gemma ist nicht schwach im Denken, aber eigensinnig im Befolgen spezieller Metainstruktionen. Für Anwender ist das relevant. In freier Arbeit kann man darüber hinwegsehen. In Agenten-Frameworks, in denen Format-Compliance selbst Teil der Funktion ist, ist das ein echtes Risiko.

Hinzu kommt ein dokumentierter Sprachfehler in einer Metakognitions-Aufgabe. Das Modell ignorierte die explizite Sprachanweisung und antwortete weitgehend auf Englisch, obwohl Deutsch gefordert war. Das ist kein technischer Defekt, sondern eine Schwäche beim Instruction-Following.

In einer Aufgabe im Reasoning-Bereich verletzte das Modell zudem die explizite Sprachvorgabe Deutsch; das System verhängte dafür einen automatischen regelbasierten Abzug. Die inhaltliche Qualität der Antwort ist damit nur zweitrangig, weil die Strafe unabhängig vom logischen Kern greift. Gerade in Umgebungen mit fixer Zielsprache ist das kein Detail, sondern ein operatives Problem.

Documentation Quality: informativ, aber mit Hang zur Breite

Die 68.44% in Documentation Quality zeigen ein vertrautes Gemma-Muster. Das Modell kann strukturieren, erklären und ordnen. Es liefert also die Art von Antwort, mit der man intern weiterarbeiten kann. Aber es neigt dazu, mehr Raum zu verbrauchen als der Median. Mit 3360 Tokens gegenüber 2494 im Fleet-Median liegt es bei einem Overhead von 1.35x. Das ist noch kein Geschwafel, aber eben auch nicht die sprachliche Askese eines Modells, das Punktlandungen liebt.

Für lokale Nutzung ist das vor allem eine Frage des Tempos. Das Modell schreibt nicht hemmungslos, aber oft etwas zu ausführlich. Wenn man längere Doku-Aufgaben regelmäßig fährt, spürt man diesen Stil in der Wartezeit. Inhaltlich ist das meist gerechtfertigt, stilistisch nicht immer. Gemma erklärt gerne einen halben Schritt mehr, als unbedingt nötig wäre.

Content Transformation: stark in der Ausführung, schwächer in der Inszenierung

Mit 72.33% schneidet das Modell bei Umformungsaufgaben solide ab. Das qualitative Protokoll zu einem deutschen Video-Skript ist aufschlussreich: Gemma liefert ein vollständiges, gut strukturiertes Ergebnis mit Zeitmarken, On-Screen-Anweisungen, Produktionshinweisen und CTA. Handwerklich funktioniert das. Das Skript ist drehbar, verständlich und weitgehend professionell.

Aber man sieht auch, wo das Modell gegen stärkere Redaktionsintelligenz verliert. Die Analyse des Ausgangsmaterials blieb zu flach, eher Checkliste als Diagnose. Der Hook war brauchbar, aber nicht wirklich zwingend. Und das Easter Egg wurde erklärt, statt versteckt. Das ist genau die Sorte Fehler, die nicht von Inkompetenz kommt, sondern von fehlendem Gespür für Dramaturgie. Das Modell kann eine Bühne bauen. Es weiß nicht immer, wie man das Licht setzt.

Hinzu kommt ein leichter Hang zur Länge. Mit 1966 Tokens gegenüber einem Median von 1609 liegt es bei 1.22x. Das bleibt im grünen Bereich und ist qualitativ nicht problematisch. Es zeigt aber, dass Gemma eher sauber ausarbeitet als hart kürzt.

UX Writing und Microcopy: brauchbar, aber nicht messerscharf

Der UX-Writing-Wert von 67.35% markiert keinen Absturz, aber eine Grenze. Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) schreibt verständlich und meist freundlich. Was ihm häufiger fehlt, ist die letzte sprachliche Präzision, die gute Produkttexte von bloß korrekten Texten trennt. Das Modell glättet zuverlässig, aber es verdichtet nicht immer klug genug. Wo knappe Mikrotexte semantische Spannung, Zielgruppenfeingefühl und harte Priorisierung brauchen, wirkt es bisweilen etwas zu generisch.

Das passt zur Architekturrolle. Ein multimodales Workstation-Modell mit nur 4.0 Milliarden aktiven Parametern muss seine Kapazität breiter verteilen. Es ist kein Sprachchirurg, sondern ein belastbarer Generalist mit visueller DNA.

Cultural Intelligence: höflich, professionell, nicht ganz idiomatisch

77.6% in Cultural Intelligence sind ein gutes Ergebnis. Das Modell entfernt problematische Sprache, hält den deutschen Tonfall stabil und produziert professionelle Formulierungen. Besonders bei HR-nahen Umschreibungen zeigt es, dass es kulturelle Sensibilitäten grundsätzlich versteht. Es wird nicht plump, nicht toxisch und nicht peinlich. Das ist schon mehr, als man manchen Konkurrenten zugestehen kann.

Die Schwäche liegt in der Feinmechanik. Im Protokoll fällt auf, dass Gemma zwar inklusiv umformuliert, aber nicht immer die treffendste deutsche Branchenrhetorik findet. Aus der konkreteren „Fachkraft“ wird die weichere „Persönlichkeit“, aus Energie wird Teamgeist. Das ist funktional okay, aber stilistisch eine Entschärfung auf Kosten der Präzision. Die beste deutsche Business-Sprache ist nicht steril. Sie ist klar, höflich und konkret. Gemma schafft meist zwei von drei.

Token-Effizienz: vernünftig kalibriert

Über alle budgetierten Module hinweg bleibt das Modell im erwartbaren Rahmen. Kein Bereich läuft aus dem Ruder, keiner sprengt sein Ausgabe-Kontingent. Besonders CLI und Cultural Intelligence sind angenehm knapp. Documentation Quality und Content Transformation sind sichtbar ausführlicher, aber nicht exzessiv. Für lokale Nutzung ist das eine stille Stärke: Das Modell verschwendet keine Ausgaben und macht seine längeren Antworten wenigstens dort, wo sie noch halbwegs begründbar sind.

Datenschutz und Datenhoheit

Ein eigener Cloud-Datenschutzblock ist hier nicht nötig, weil das Modell lokal betrieben wird und im Test kein externer Provider im Pfad lag. Relevant bleibt dennoch die Herkunft der Gewichte: Das Weights-Provenienz-Risiko liegt bei MEDIUM, weil die Basis aus Googles Gemma-4-Familie stammt, die hier aber als Community-Quant in ARA/APEX-Q5_K_M-Variante vorliegt. Der Unterschied zum offiziellen Release ist nicht bloß akademisch. Wer sicherheitsrelevante oder regulatorisch sensible Workloads plant, sollte die begrenzte Nachvollziehbarkeit der Modifikationen ausdrücklich einkalkulieren.

Fazit

Gemma 4 ARA 26B-A4B Q5_K_M (GGUF) ist ein bemerkenswert erwachsenes lokales Modell. Es kombiniert die Breite eines Vision-Language-Ansatzes, die praktische Einsetzbarkeit einer Workstation-Klasse und die Effizienz einer MoE-Architektur mit nur 4.0 Milliarden aktiven Parametern zu einem Paket, das auf dem Testsystem nicht nur läuft, sondern arbeitet. Besonders in CLI, allgemeiner Strukturierung und solider Security-Erstbewertung macht es eine gute Figur. Die Schwächen liegen dort, wo letzte Präzision zählt: bei tief integrierter Sicherheitsanalyse, bei feiner redaktioneller Dramaturgie und bei strikter Format- oder Sprach-Compliance.

Für wen lohnt es sich? Für Entwickler, Administratoren und fortgeschrittene lokale Nutzer, die ein schnelles, stabiles und vielseitiges Modell suchen, das mehr kann als bloße Chat-Antworten. Für reine Text-Perfektionisten, anspruchsvolle Security-Audits ohne menschliche Gegenprüfung oder Agenten-Setups mit harten Formatverträgen ist es nicht die erste Wahl. Als lokales Arbeitsmodell ist es stark. Als kompromissloser Spezialist ist es es nicht. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber nichts, als sich zu blamieren.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.