Gemma 4 31B · LLM Model Review

Mit einem Gesamtscore von 73.48% tritt Gemma 4 31B als Generalist im Workstation-Segment an: ein dichtes 31B-Modell, vollständig aktiv bei jeder Anfrage, ohne MoE-Tricks und mit klarer Instruct-Prägung. Das merkt man sofort. Die Antworten sind meist fokussiert, vergleichsweise knapp und selten verschwenderisch, aber nicht immer tief genug, wenn eine Aufgabe mehr verlangt als korrektes Abarbeiten. Der Speed-Profile-Badge lautet Interactive Tool Expert, was gut passt: 43.15 Tokens pro Sekunde via Google-Cloud-Infrastruktur sind schnell genug für interaktive Nutzung, aber kein Turbomodus. Als Cloud Open-Weights-Modell über Google DeepMind misst diese Geschwindigkeit vor allem den Endpunkt und seine Infrastruktur, nicht irgendeine Rechenkunst im stillen Kämmerlein. Sovereign Risk: MEDIUM — Google unterliegt als US-Unternehmen dem CLOUD Act; verarbeitet wird laut Provider Card in den USA.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	1/43	Sporadisch	Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Bei einem Cloud-Endpunkt ist das kein Schönheitsfehler, sondern ein kleines, aber reales Reliability-Risiko.
P95-Antwortzeit	55.42 s	Akzeptabel	Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar. In fünf Prozent aller Anfragen wartet der Nutzer aber fast eine Minute. Das ist nichts Dramatisches, aber weit entfernt von nervenfreier Sofortigkeit.

Performance-Profil: schnell genug, sparsam genug, nicht immer entschlossen genug

Gemma 4 31B verhält sich token-ökonomisch. Kein einziges Modul überschreitet den erwarteten Verbosity-Rahmen, teils liegt das Modell sogar deutlich unter dem Median der Testflotte. Im CLI-Bereich kommt es im Schnitt auf 85 Tokens statt 204. In Documentation Quality sind es 1724 statt 2272, in UX Writing 1004 statt 1267. Das ist nicht bloß eine Rechentrick-Fußnote, sondern ein Charakterzug: Gemma 4 31B redet selten um den heißen Brei.

Diese Effizienz hat zwei Seiten. Positiv ist der niedrige API-Fußabdruck, zumal der Benchmark-Kostensatz mit 0.0162 US-Dollar für alle 43 Tests bemerkenswert niedrig bleibt. Negativ ist, dass das Modell in einigen Disziplinen genau dort Luft liegen lässt, wo zusätzliche Tiefe den Unterschied zwischen „brauchbar“ und „wirklich gut“ gemacht hätte. Gemma 4 31B spart Worte meist klug. Manchmal spart es leider auch Substanz.

Code Quality und Security: kompetent, aber nicht mit dem Instinkt eines Paranoikers

Im Code- und Audit-Bereich zeigt Gemma 4 31B eine der stärkeren Seiten des Modells. Der Code-Quality-Audit-Wert von 74.3 ist ordentlich, und die qualitativen Protokolle bestätigen das Bild: strukturierte Tabellen, saubere deutsche Fachsprache, korrekte Identifikation zentraler Schwachstellen und brauchbare Fix-Vorschläge. In einem Sicherheitsreview erkannte das Modell 15 von 19 relevanten Lücken, darunter SQL-Injection in mehreren Pfaden, Path Traversal, Session Fixation, schwache Token-Generierung, unsichere Cookies und eine plausible IDOR-Angriffskette bis zur Kontoübernahme. Das ist kein Zufallstreffer, sondern solide Handwerksarbeit.

Aber Security ist eine Disziplin, in der 80 Prozent Erkennung nicht nach „vier von fünf Sternen“ klingen, sondern nach „der Rest könnte teuer werden“. Genau da stolpert Gemma 4 31B. Es übersieht in diesem Audit mehrere kritische Punkte, darunter hartkodierte Secrets, fehlenden CSRF-Schutz und ein Reset-Token ohne Ablaufzeit. Noch problematischer ist die Kalibrierung der Schweregrade: Einige Lücken, die klar kritisch sind, stuft das Modell nur als hoch ein, etwa Path Traversal, Type Juggling bei der API-Prüfung und die IDOR-Kette. Für einen Security-Reviewer ist das kein akademischer Makel. Wer Risiken zu mild einordnet, priorisiert falsch.

Was dem Modell außerdem fehlt, ist Synthese auf Senior-Niveau. Die Einzelbefunde stimmen oft, aber die Verknüpfung zu echten Angriffspfaden bleibt dünn. Die Protokolle kritisieren zu Recht, dass PoC-Ketten und priorisierte Remediation fehlen. Gemma 4 31B sieht viele Bäume. Den Wald erkennt es, aber nicht immer mit der nötigen Dringlichkeit.

Logik und Reasoning: sauber gedacht, etwas zu brav erklärt

Der Reasoning-Wert von 71.27 liegt in einem Bereich, der Vertrauen erlaubt. Nicht blindes Vertrauen, aber genug, um das Modell für klassische Logikaufgaben, strukturierte Analyse und argumentative Zerlegung ernst zu nehmen. Im protokollierten Wächter-Rätsel liefert Gemma 4 31B die korrekte Standardlösung, erklärt die doppelte Negation nachvollziehbar und trennt Analyse und Ergebnis sauber. Das ist gute, belastbare Logikarbeit.

Die Schwäche liegt weniger im Denken als in der Ausarbeitung. Der Judge moniert fehlende Alternativformulierungen, weniger Meta-Einsicht und geringere Tiefe als die Referenz. Das passt zur Kategorisierung als General plus Instruct: Gemma 4 31B antwortet zielorientiert und verliert sich nicht im Denknebel, aber es geht selten einen Schritt weiter, wenn der Prompt diesen Schritt nicht praktisch mit Leuchtfarbe markiert. Für viele Nutzer ist das angenehm. Für anspruchsvolle Analysearbeit bleibt ein leicht konservativer Eindruck zurück.

Content Transformation: funktional, aber nicht produktionsreif aus einem Guss

Im Bereich Content Transformation landet Gemma 4 31B bei 71.07. Das klingt unspektakulär, und genau so liest sich auch das qualitative Material. Das Modell liefert ein vollständiges deutsches Skript, erkennt offensichtliche Mängel in einer Outline und baut brauchbare Produktionshinweise ein. Es scheitert also nicht am Auftrag. Es erfüllt ihn. Nur eben mit dem Stil eines guten Assistenten und nicht mit der Souveränität eines erfahrenen Redakteurs oder Producers.

Besonders deutlich wird das in einer Aufgabe zur Umwandlung einer Outline in ein YouTube-Skript. Der Judge lobt die grundlegende Nutzbarkeit, zieht aber bei fast jedem Präzisionsmerkmal Punkte ab: Analyse zu grob, Timestamps weniger granular, Pausenmarker inkonsistent, Screen-Annotations funktional statt konkret, Pattern Interrupt schwach, Easter Egg ungünstig platziert, Produktionshinweise zu generisch, zu wenig „Why“ entlang der Dramaturgie, CTA ohne emotionale Fallhöhe. Anders gesagt: Das Skelett steht, aber das Fleisch fehlt. Ein Cutter könnte damit arbeiten. Er müsste aber nachfragen, interpretieren und ergänzen. Für ein Modell dieser Größe ist das akzeptabel. Beeindruckend ist es nicht.

UX Writing, Dokumentation und kulturelle Passung: höflich, korrekt, manchmal etwas steif

Gemma 4 31B ist stark genug, um in den textnahen Modulen nicht unangenehm aufzufallen. Documentation Quality erreicht 70.57, UX Writing 66.75, Cultural Intelligence 80.9. Gerade im kulturellen Modul zeigt das Modell, dass es mit sensiblen Umformulierungen umgehen kann. In einer HR-Aufgabe entfernt es toxische und geschlechtlich codierte Begriffe zuverlässig, hält die deutsche Sprache sauber durch und baut den Text professionell um. Der Judge lobt explizit die Entschärfung von Bias und die grammatische Korrektheit.

Die Schwächen sind hier stilistischer Natur, aber nicht trivial. Tonalität und Idiomatik sind nicht immer treffsicher. Statt moderner, einladender Sprache rutscht das Modell zuweilen in leicht sperrige Formulierungen wie „fachkundige Persönlichkeit“ oder in einen Ton, der eher transaktional als offen wirkt. Dazu kommt ein kleiner, aber aufschlussreicher Regelverstoß: inklusives Formatting wurde in der HR-Aufgabe nicht vollständig getroffen. Das ist kein Zusammenbruch. Es ist ein Signal dafür, dass Gemma 4 31B kulturelle Anforderungen gut genug versteht, aber nicht immer mit letzter Eleganz umsetzt.

Im UX- und Doku-Bereich wirkt das Modell ähnlich. Es kann strukturieren, verdichten und umformulieren. Was ihm öfter fehlt, ist der letzte Schliff aus Prägnanz, Nutzersicht und sprachlicher Wärme. Es schreibt korrekt. Es schreibt nur nicht immer so, dass man den Text sofort veröffentlichen möchte.

CLI und Tool-Nähe: bemerkenswert ordentlich für einen Allrounder

Der CLI-Wert von 85.56 gehört zu den erfreulicheren Signalen im Gesamtbild. Zusammen mit dem Badge Interactive Tool Expert ergibt sich ein schlüssiges Profil: Gemma 4 31B ist kein spezialisiertes Coder-Modell, aber es kann mit kompakten, ausführbaren und relativ effizienten Antworten in toolnahen Aufgaben umgehen. Gerade die niedrige Tokenzahl im CLI-Modul spricht dafür, dass das Modell Befehlsnähe versteht und nicht jeden Shell-Befehl mit einem halben Essay begleitet. Für Agenten-Workflows und terminalnahe Hilfen ist das ein praktischer Vorzug.

Man sollte daraus trotzdem keine falsche Heldengeschichte basteln. Das Modell ist kein DevOps-Skalpell. Eher ein ordentlich geschliffenes Taschenmesser. Für viele Alltagsaufgaben reicht das erstaunlich weit.

Halluzinationen und Verlässlichkeit des Inhalts

Was Gemma 4 31B im Test angenehm macht, ist seine Zurückhaltung beim Erfinden. Die qualitativen Protokolle zeigen vor allem Auslassungen, Kalibrierungsfehler und mangelnde Tiefe, aber keine auffällige Neigung zu wilden Behauptungen. Das ist ein wichtiger Unterschied. Ein Modell, das Lücken hat, aber selten fantasiert, ist im redaktionellen und operativen Alltag oft leichter zu kontrollieren als ein eloquenter Blender.

Datenschutz und Datenhoheit

Die Datenschutzlage ist für europäische Unternehmen nicht katastrophal, aber auch nicht harmlos. Die Provider Card nennt Google DeepMind beziehungsweise Google LLC als Anbieter, mit anwendbarem US-Recht und Datenstandort USA. Damit gilt der CLOUD Act. US-Behörden können unter bestimmten Voraussetzungen Zugriff auf verarbeitete Daten verlangen, selbst wenn vertragliche Schutzmechanismen wie SCCs und ein DPA existieren. Ein GDPR-DPA ist laut Card verfügbar, was für Unternehmen, die DSGVO-konform arbeiten müssen, die Tür offen hält. Die Datenspeicherung ist mit -1 Tagen angegeben, also ohne verlässlich spezifizierte Frist. Genau dort beginnt für Compliance-Teams die unangenehme Detailarbeit. Das berechnete Sovereign Risk liegt deshalb bei MEDIUM: kein rotes Tuch, aber auch nichts, das man ohne Abstimmung mit Datenschutz und Rechtsabteilung einfach abhakt.

Fazit

Gemma 4 31B ist ein gutes, diszipliniertes Cloud-Open-Weights-Modell via Google DeepMind, das im Benchmark mehr Reife zeigt als viele experimentell etikettierte Kandidaten, aber seine Preview-Natur nicht ganz verbergen kann. Seine Stärke liegt in der Mischung aus ordentlicher Logik, guter Tool-Nähe, brauchbarer Security-Kompetenz und erfreulich token-ökonomischem Verhalten. Seine Schwäche ist nicht das große Scheitern, sondern das kleine Zurückbleiben: zu wenig Tiefe, zu wenig Präzision im Feinschliff, zu vorsichtige Ausarbeitung dort, wo ein stärkeres Modell die Aufgabe noch einmal aufspannt und verdichtet. Für allgemeine Assistenz, strukturierte Textarbeit, CLI-nahe Hilfe und solide Erstanalysen ist das Modell gut einsetzbar. Für Security-Audits mit Priorisierungsverantwortung, publikationsreife Content-Produktion oder heikle Enterprise-Workflows sollte ein menschlicher Gegencheck Pflicht bleiben. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber nichts, als sich zu blamieren.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.