LLM Model Review
Erstellt am · Instruction-Tuned · Uncensored · Agentic Orchestrator
Mit einem Gesamtscore von 72.89% liefert Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) kein glamouröses Feuerwerk, wohl aber ein erstaunlich belastbares Arbeitsmodell mit klarer Handschrift. Der Speed-Profile-Badge Interactive DevOps Expert passt: Das Modell antwortet zügig, strukturiert und meist mit operativer Nützlichkeit, ohne sich in Wortschmuck zu verlieren. Für einen Generalisten der Workstation-Klasse mit MoE-Architektur und nur 4.0 Milliarden aktiven Parametern pro Token ist das respektabel. Sovereign Risk: MEDIUM — das Basismodell stammt aus US-Jurisdiktion, die lokal eingesetzten Gewichte wurden jedoch zusätzlich durch eine Community-Abliteration modifiziert, was die Provenienz weniger sauber nachvollziehbar macht.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 0/43 | Stabil | Das Modell lief im Test absolut stabil und zuverlässig. |
| P95-Antwortzeit | 65.16 s | Problematisch | Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. |
Diese Kombination ist aufschlussreich. Keine Timeouts, also keine mechanische Selbstzerlegung unter Last. Gleichzeitig eine P95-Antwortzeit von 65.16 Sekunden, also ein deutlicher langer Schwanz bei den Antwortzeiten. Das ist für ein als Agentic-Orchestrator eingestuftes Modell nicht völlig überraschend: Solche Modelle planen intern oft mehr, als ihre sichtbare Ausgabe vermuten lässt. Man merkt hier die Denkarchitektur, nicht bloß die rohe Token-Schaufel.
Einordnung: Was dieses Modell eigentlich sein will
Die Metadaten passen erstaunlich gut zum beobachteten Verhalten. Als General-Modell muss es Breite zeigen. Als Instruct-Modell muss es Anweisungen präzise und ohne überflüssige Exkurse befolgen. Als Uncensored-Variante trägt es das typische Risiko jeder Abliteration: mehr Freiheit, aber potenziell auch Kollateralschäden an interner Konsistenz. Und als Agentic-Orchestrator sollte man es weniger daran messen, ob jeder Einzelschritt wie mit dem Lineal gezogen wirkt, sondern daran, ob Planung, Analyse und strategische Struktur sitzen.
Dazu kommt die kuratierte Klassifikation: Use Case Generalist, Size Class Workstation, Parameter-Architektur MoE. Das ist wichtig, weil 25.2 Milliarden Gesamtparameter hier eine halbe Wahrheit sind. Relevanter sind die 4.0 Milliarden aktiven Parameter pro Token. Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) arbeitet also eher wie ein spezialisiert schaltender Allrounder als wie ein permanent voll aufgedrehter Großtransformer. Die Erwartungen müssen deshalb an der aktiven Kapazität kalibriert werden, nicht an der Gesamtzahl auf dem Karton.
Genau daran gemessen wirkt das Modell erstaunlich gesund. Es zeigt keine Anzeichen eines spektakulären Capability Collapse, wie man ihn von schlecht gemachten uncensored-Abliterated-Derivaten kennt. Die Eingriffe haben ihm nicht die Beine abgesägt. Aber sie haben auch keinen Wunderapparat geschaffen.
Geschwindigkeit und Effizienz
Das Modell wurde als lokales Modell auf einem Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) evaluiert. In diesem Kontext sind 54.58 Tokens pro Sekunde ein sehr ordentliches Ergebnis, gerade für ein Workstation-MoE mit 25.2 Milliarden Gesamtparametern. Der Badge Interactive DevOps Expert ist hier keine Marketing-Poesie, sondern eine brauchbare Beschreibung des Einsatzprofils: interaktiv genug für Dialogarbeit, schnell genug für operative Technikaufgaben, aber nicht die Sorte Modell, die in jeder Situation sofort losschießt.
Wichtiger noch: Das Modell verhält sich token-ökonomisch. Kein Modul übersteigt den erwarteten Verbosity-Rahmen. Im CLI-Bereich liegt es mit durchschnittlich 211 Output-Tokens sogar klar unter dem Fleet-Median von 294. Auch Code Quality, Cultural Intelligence und UX Writing bleiben nah am oder unter dem Schnitt. Nur Documentation Quality und Content Transformation sind etwas ausführlicher, aber nicht aus dem Ruder. Für den Alltag heißt das: keine übermäßige Geschwätzigkeit, keine künstlich aufgeblähte Antwortmasse, keine spürbare Latenzstrafe durch unnötige Textberge.
Code Quality und Security: brauchbar, aber nicht scharf genug
Mit 74.9 Punkten in Code Quality schlägt sich Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) gut. Das ist kein Elite-Forensiker, aber ein Sicherheitsprüfer, der die meisten offensichtlichen und viele fortgeschrittene Probleme tatsächlich sieht. Im vorliegenden Protokoll identifiziert das Modell 14 Schwachstellen in einem bewusst verwundbaren PHP-Beispiel, darunter SQL Injection, Klartext-Passwörter, XSS, Session Fixation, Path Traversal, schwache Token-Generierung, Type Juggling und CSRF. Es liefert dazu überwiegend korrekte Gegenmaßnahmen. Das ist mehr als Stichwort-Bingo.
Die Schwäche liegt nicht in falscher Technik, sondern in unvollständiger Tiefenschärfe. Fünf relevante Lücken bleiben liegen, darunter besonders unangenehm eine IDOR-Schwachstelle bei der Profiländerung, also ein direkter Weg zur Rechteausweitung durch Manipulation einer User-ID. Auch hartkodierte Secrets und fehlende Ablaufzeiten für Reset-Tokens übersieht das Modell. Das ist in Security-Kontexten kein kleiner Schönheitsfehler, sondern der Unterschied zwischen „solider Erstbefundung“ und „auditreifer Analyse“.
Noch deutlicher wird der Charakter des Modells bei der Darstellungsform: sauber strukturierte Tabelle, präzise Sprache, nützliche Fixes. Was fehlt, ist Ketten-Denken. Der Judge bemängelt zu Recht, dass das Modell die Schwachstellen atomisiert behandelt, statt Angriffswege zusammenzuführen. Ein professioneller Bericht zeigt nicht nur einzelne Lecks, sondern auch, wie daraus ein Totalschaden wird. Genau dort bleibt Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) etwas zu brav.
Das Urteil fällt deshalb zwiespältig, aber fair aus: Für Code-Reviews, Sicherheits-Hygiene und erste Audit-Runden ist das Modell nützlich. Für wirklich kritische Security-Arbeit braucht es Aufsicht durch Menschen oder ein schärferes Spezialmodell. Man sollte dabei milder einordnen, dass dies kein Coder-Modell ist und ein uncensored-Derivat seinen eigentlichen Nutzen eher im freieren Inhaltsraum als in maximaler Software-Präzision hat. Trotzdem gilt: Wer „Sicherheitsanalyse“ sagt, darf keine Privilege-Escalation übersehen.
CLI und Tool-Nähe: erstaunlich treffsicher
Der CLI-Score von 90.0 ist einer der stärksten Werte dieses Modells und passt gut zur Kategorie Agentic-Orchestrator. Das Modell wirkt in operativen, schrittbezogenen Technikaufgaben zuhause. Gerade dort zahlt sich aus, dass es Anweisungen direkt und ohne unnötige stilistische Schleifen verarbeitet. Dass solche Modelle in streng formatierten Einzelbefehlen gelegentlich weniger elegant sind als bei Planung und Zerlegung, wäre verzeihlich. Hier muss man aber kaum verzeihen: Das Ergebnis ist stark.
Dazu passt auch die knappe Token-Nutzung im CLI-Modul. Das Modell erklärt nicht erst die Geschichte der Shell, sondern kommt zur Sache. Für Agenten-Frameworks und halbautomatisierte DevOps-Workflows ist das ein echter Vorzug. Wer einen Orchestrator sucht, der operative Schritte plausibel strukturiert und dabei nicht alles zutextet, bekommt hier ein ernstzunehmendes Werkzeug.
Reasoning und Logik: inhaltlich solide, bei Sprach-Compliance mit einem hässlichen Kratzer
Logical Reasoning landet bei 68.16 Punkten. Das ist ordentlich, aber nicht dominant. Die qualitativen Protokolle zeigen ein Modell, das logisch oft richtig liegt, seine Gedanken auch gründlich entfaltet, dabei aber nicht immer sauber genug in der Präsentation bleibt. Im Rätsel mit den zwei Wächtern erkennt es korrekt die selbstreferenzielle Lösung und diskutiert sogar mehrere Varianten. Der Judge attestiert inhaltlich saubere Logik, inklusive Fallunterscheidung und richtiger Negationsstruktur. Das Problem ist also nicht, dass das Modell nicht denken kann. Das Problem ist, dass es sich bei der Aufgaben-Compliance einen unnötigen Patzer erlaubt.
Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den Tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 68%, was dem Niveau anderer Modelle entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.
Hinzu kommt ein konkreter Hard-Constraint-Verstoß im Metakognitionsbereich: In einer deutschsprachig geforderten Reasoning-Aufgabe antwortete das Modell überwiegend auf Englisch. Das System registrierte einen automatischen Sprachverstoß; die Sprache war nicht bloß leicht gemischt, sondern klar daneben, mit 140 englischen gegenüber 3 deutschen Markern. Die inhaltliche Qualität der Antwort wird dadurch zweitrangig, weil der Regelverstoß unabhängig vom Denkweg greift. In einem produktiven deutschsprachigen Umfeld ist das keine Petitesse, sondern ein glatter Fehltritt.
Das Modell ignorierte in dieser Aufgabe die explizite Sprachanweisung und antwortete auf Englisch. Das ist kein technischer Defekt, sondern eine Schwäche im Instruction-Following unter kombinierter Last aus Format- und Sprachvorgaben. Gerade weil Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) als Instruct etikettiert ist, fällt dieser Fehler schwerer ins Gewicht. Ein Instruktionsmodell darf bei so einer Basisanforderung nicht ins Englische kippen, nur weil die Denkspur intern offenbar anders organisiert ist.
Unterm Strich ist Reasoning hier besser als sein Score in Teilen vermuten lässt. Aber es ist auch nicht souverän genug, um Formvorgaben neben der Logik immer mitzuschleppen. Das Modell kann denken. Es gehorcht nur nicht immer sauber genug.
UX Writing und Content Transformation: produktionsnah, aber nicht elegant bis zum letzten Satz
Im UX Writing erreicht das Modell 67.35 Punkte, in Content Transformation 72.33. Diese Kombination trifft den Charakter ziemlich gut: anständig, oft nützlich, aber nicht die Sorte Textmodell, bei der man sich nach dem letzten Absatz zurücklehnt und denkt, genau so muss Sprache klingen.
Das Content-Transformation-Protokoll zeigt die Stärken sehr klar. In einer komplexen Aufgabe zur Umwandlung einer trockenen 2FA-Outline in ein vierminütiges, produktionstaugliches YouTube-Skript liefert das Modell vollständig auf Deutsch, mit Zeitmarken, Sprechertext, visuellen Hinweisen, B-Roll, Musik-Cues, Pattern Interrupt und Call to Action. Das ist keine Kleinigkeit. Viele Modelle scheitern an genau dieser Mischung aus Format, Dramaturgie und Produktionslogik. Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) scheitert nicht. Es baut ein benutzbares Skript.
Die Schwäche ist strategischer Natur. Laut Judge bleibt die Analyse vor dem Skript zu flach, der Hook zu generisch und das Easter Egg zu aufdringlich erklärt statt elegant versteckt. Man spürt also die Fähigkeit zur Umsetzung, aber nicht immer die letzte editorische Raffinesse. Das Modell arbeitet wie jemand, der das Briefing verstanden hat und sauber liefert. Was fehlt, ist gelegentlich die kreative Präzision, die aus funktional gut ein erinnerbares Stück macht.
Beim UX Writing zeigt sich ein ähnliches Bild. Das Modell kann toxische oder unpassende Sprache in brauchbares, professionelles Deutsch überführen. In einer HR-nahen Umschreibungsaufgabe entfernt es problematische Begriffe sauber, bleibt grammatisch korrekt und trifft einen professionellen Ton. Doch die Wortwahl verliert etwas Zugkraft. Wo die Referenz mit „Fachkraft“ und „Tatkraft“ semantisch genau zielt, wählt das Modell weichere, allgemeinere Begriffe wie „engagierte Persönlichkeit“. Das ist nicht falsch. Es ist nur weniger klug. Sprache wird hier nicht beschädigt, aber auch nicht veredelt.
Documentation Quality: ordentlich, mit Tendenz zur Breite statt zur Klinge
Documentation Quality liegt bei 68.44 Punkten. Das passt zur generellen Signatur des Modells: Es kann strukturieren, erläutern und ausführen, produziert dabei aber eher brauchbare Vollständigkeit als brillante Präzision. Mit durchschnittlich 3360 Output-Tokens liegt es etwas über dem Fleet-Median von 2821, also nicht exzessiv, aber merklich ausführlicher.
Für Dokumentationsaufgaben ist das nicht automatisch ein Nachteil. Wer Runbooks, Erklärtexte oder interne Wissensbausteine erstellen lässt, profitiert oft eher von Vollständigkeit als von stilistischer Härte. Die Kehrseite ist, dass das Modell bei längeren Textaufgaben nicht immer die klarste Verdichtung liefert. Es erklärt gern einen Tick mehr, als unbedingt nötig wäre. Das bleibt im grünen Bereich, zeigt aber: Dies ist kein asketischer Dokumentations-Skalpell, sondern eher ein zuverlässiger Schreiber mit Hang zur Absicherung.
Cultural Intelligence: überraschend sicher im Ton, nicht immer maximal idiomatisch
Mit 77.6 Punkten gehört Cultural Intelligence zu den angenehmeren Überraschungen. Gerade uncensored-Derivate verlieren in feineren sozialen oder sprachkulturellen Aufgaben oft zuerst die Contenance. Hier passiert das nicht. Das Modell bleibt höflich, professionell und kulturell anschlussfähig.
Das Beispiel aus dem HR-Umfeld ist aufschlussreich. Das Modell entfernt toxische oder martialische Begriffe, wahrt Inklusivität und schreibt korrektes Deutsch. Der Judge kritisiert nicht etwa grobe kulturelle Fehlgriffe, sondern Nuancen: „Persönlichkeit“ statt „Fachkraft“, fehlende „Tatkraft“, etwas weniger marktnaher Ton. Das ist eine Kritik auf gutem Niveau. Der Text ist nicht peinlich, nicht schief, nicht kulturblind. Er ist nur nicht die beste Form seiner selbst.
Für ein Modell mit den Tags General, Instruct und Uncensored ist das ein starkes Signal. Es zeigt, dass die Abliteration hier nicht in soziale Grobheit umgeschlagen ist. Das Modell kann sich benehmen. Es will nur nicht immer die perfekte Formulierung wählen.
Datenschutz und Datenhoheit
Ein eigener Cloud-Provider spielt hier keine Rolle, weil es sich um ein lokales Open-Weights-Modell handelt. Entscheidend ist daher die Provenienz der Gewichte: Das berechnete Sovereign Risk liegt bei MEDIUM. Grund ist nicht der Laufzeitbetrieb auf dem Testsystem, sondern die Herkunft und Modifikationskette der Gewichte. Das Basismodell stammt von Google DeepMind aus US-Jurisdiktion; die hier verwendete Variante wurde anschließend durch ARA-APEX per Adaptive Refusal Abliteration modifiziert. Für europäische Unternehmen heißt das: Die lokale Inferenz reduziert das klassische Datenabflussrisiko massiv, aber die Nachvollziehbarkeit der Gewichtsherkunft ist weniger sauber als bei einem unveränderten Originalmodell.
Fazit
Gemma 4 ARA 26B-A4B Q5_K_M (ARA-Abliterated) ist eines dieser Modelle, die man leicht unterschätzen kann. Auf dem Papier ist es ein Workstation-Generalist mit MoE-Architektur, 25.2 Milliarden Gesamtparametern und nur 4.0 Milliarden aktivem Pfad pro Token. In der Praxis ist es ein erstaunlich brauchbarer Allrounder mit starker CLI- und Tool-Nähe, solider Security-Grundkompetenz, ordentlichem Reasoning und einer erfreulich disziplinierten Token-Ökonomie. Seine 54.58 Tokens pro Sekunde machen es auf dem Testsystem interaktiv genug, ohne die 24-GB-Speichergrenze unnötig auszureizen. Die fehlenden Timeouts sind dabei fast wichtiger als jede Showzahl.
Die Schwächen sind klar benennbar. Bei Security fehlt mitunter der letzte Blick für kritische Ketten und versteckte Eskalationspfade. Bei Reasoning gibt es keine inhaltliche Blamage, aber eine unnötige Neigung, Format- oder Sprachvorgaben zu verletzen. Bei Textaufgaben ist das Modell häufig gut, aber selten glänzend. Es liefert. Es veredelt nicht immer. Genau deshalb eignet es sich gut für operative Alltagsarbeit, technische Assistenz, erste Audit-Runden, CLI-nahe Agenten und strukturierte Transformationsaufgaben. Für hochkritische Security-Prüfungen, präzise deutschsprachige Compliance-Workflows oder sprachlich hochpolierte Außenkommunikation sollte ein Mensch oder ein stärker spezialisiertes Modell die letzte Instanz bleiben.
Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig Tiefenschärfe, als sich mit Unsinn zu blamieren. Zur Provenienz gilt: lokal angenehm souverän, aber durch die Community-Abliteration mit nachvollziehbarem Mittlerisiko behaftet. Das ist kein Blender. Es ist ein Werkzeug. Und als Werkzeug ist es ziemlich gut, solange man weiß, wo die Schneide endet.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.