Gemma 4 31B (Cloud API) · LLM Model Review

Mit einem Gesamtscore von 73,24 % präsentiert sich Gemma 4 31B (Cloud API) als ernstzunehmender Allrounder der Generalist-/Instruct-Klasse: ein 31B-Dense-Modell der Workstation-Kategorie, das klare Anweisungen meist diszipliniert umsetzt, dabei aber nicht die letzte analytische Schärfe mitbringt. Der Speed-Profile-Badge Interactive Tool Expert passt erstaunlich gut: Das Modell wirkt wie ein pragmatischer Operator, der Struktur und Nutzbarkeit höher gewichtet als intellektuelles Muskelspiel. Sovereign Risk: HIGH — Google DeepMind unterliegt als US-Anbieter dem CLOUD Act; laut Vendor Card werden Daten in den USA verarbeitet.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	1/43	Sporadisch	Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Da es sich hier um ein Cloud Open-Weights-Modell via Google DeepMind API handelt, ist das kein Maschinenproblem des Nutzers, sondern ein direktes Reliability-Risiko des Endpunkts oder der Netzstrecke.
P95-Antwortzeit	62.8 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. In fünf Prozent der Anfragen wartet der Nutzer also über eine Minute auf eine Antwort. Für interaktive Arbeit ist das spürbar zu lang.

Leistungsprofil: schnell genug, aber nicht nervenstark

Die gemessene Generierungsgeschwindigkeit liegt bei 34,86 Tokens pro Sekunde. Das ist für einen Cloud-Dienst ordentlich, aber nicht spektakulär. Wichtig ist der Kontext: Bei Gemma 4 31B (Cloud API) misst dieser Wert nicht nur das Modell selbst, sondern die gesamte bereitgestellte Cloud-Infrastruktur des Anbieters. Er ist also ein Benchmark für Googles API-Bereitstellung dieses Open-Weights-Modells, nicht für irgendeine allgemein verfügbare Rechenrealität.

Der Badge Interactive Tool Expert verspricht ein Modell, das in Werkzeug- und Arbeitsabläufen zügig genug antwortet, um nicht als Batch-Maschine wahrgenommen zu werden. Das stimmt nur halb. Die Durchschnittsdauer pro Aufgabe von 23,94 Sekunden wirkt noch handhabbar, aber der lange Tail mit 62,8 Sekunden P95 und ein Timeout im Reasoning-Bereich zeigen, dass diese Interaktivität fragil ist. Im Alltag heißt das: Solange die Anfrage geradeaus läuft, arbeitet Gemma 4 31B (Cloud API) flott genug. Sobald Aufgaben mehr Denktiefe oder längere Struktur verlangen, verliert das Modell seine Leichtfüßigkeit.

Positiv ist die Token-Ökonomie. Über alle gemessenen Module bleibt das Modell unter dem Fleet-Median. Besonders deutlich ist das bei Dokumentation, CLI und UX-Writing. Gemma redet also nicht um sein Defizit herum, sondern bleibt kompakt. Das ist bei einem Cloud-Angebot mehr als eine Stilfrage. Es senkt direkt die Kosten und verringert die Chance, dass Antworten im eigenen Ausgabelimit verenden. Kurz gesagt: kein Verschwender, eher ein nüchterner Schreiber.

Architektur und Charakter: Generalist mit Instruct-Disziplin

Die redaktionelle Einordnung als General, Instruct trifft den Charakter sehr präzise. Als Generalist muss Gemma 4 31B (Cloud API) über die gesamte Breite bestehen, nicht nur in einem Lieblingsfach. Als Instruct-Modell darf man knappe, direkte und regelorientierte Antworten erwarten. Genau das liefert es. Es ist selten brillant, aber oft zweckmäßig. Diese Art Modell will nicht glänzen, sondern erledigen.

Die zweite wichtige Einordnung ist technischer Natur: 31,0 Milliarden Parameter, davon 31,0 Milliarden aktiv, dense. Anders als bei Mixture-of-Experts-Architekturen ist hier nicht ein kleiner Teil der Gewichte aktiv, sondern die volle Kapazität bei jeder Anfrage. Die Zahl ist also ehrlich. Für ein dichtes Workstation-Modell dieser Größe ist die Erwartung klar: gute Breitenleistung, keine Ausreden bei Standardaufgaben, aber auch kein automatischer Anspruch auf Frontier-Niveau. Gemma erfüllt diesen Anspruch ordentlich, nicht überragend.

Dazu kommt ein ungewöhnlich aktueller Trainings-Cutoff von 2025-06 und ein großes Kontextfenster von 256K Tokens. Beides stärkt die theoretische Reichweite. Im Benchmark zeigt sich allerdings auch: Ein langes Kontextfenster ist nur dann Gold wert, wenn die Antwort unter Last stabil und strukturell konsequent bleibt. Genau da kommt Gemma gelegentlich ins Stolpern.

Code Quality und Security: brauchbar, aber nicht forensisch

Im Code-Quality-Audit erreicht das Modell 73,56 %. Das ist ein respektabler Wert, vor allem weil die Antworten formal sauber bleiben und das Modell Sicherheitsprobleme zuverlässig erkennt. Im Security-Protokoll zu einer PHP-Anwendung identifizierte Gemma 4 31B (Cloud API) 15 Schwachstellen in einer korrekt formatierten Markdown-Tabelle, darunter SQL Injection, XSS, Path Traversal, IDOR, schwache Token-Generierung und Mail-Header-Injection. Das ist keine schlechte Liste. Wer einen ersten Sicherheitsdurchgang braucht, bekommt hier kein gefährliches Blendwerk.

Aber der Haken ist entscheidend. Die Aufgabe verlangte ausdrücklich alle Schwachstellen, und genau dort wird aus „gut“ nur noch „solide“. Laut Judge fehlten mehrere wichtige Punkte, darunter CSRF-Schutz, hardcodierte Secrets, DB-Zugangsdaten und Ablaufregeln für Reset-Tokens. Auch die Fixes bleiben eher knapp als belastbar. Gemma erkennt den Brandgeruch im Serverraum. Den Bauplan für den Brandschutz liefert es nicht immer mit.

Gerade im Security-Kontext ist das relevant. Das Modell halluziniert hier nicht wild. Was es sagt, ist meist korrekt. Aber es unterschätzt die Vollständigkeitspflicht. Für Audits, bei denen ein übersehener Punkt später zum Incident wird, ist das eine echte Grenze. Es arbeitet wie ein guter Junior mit sauberem Blick und ordentlicher Tabellenhygiene, nicht wie ein misstrauischer Principal Engineer, der jede Kante aufbricht.

Formal zeigt sich die Instruct-Prägung deutlich. Die Tabellenstruktur stimmt, die Erläuterungen sind knapp, die Priorisierung nach Schweregrad gelingt. Das Modell verliert also nicht an der Oberfläche, sondern in der Tiefe. Es beantwortet die Frage. Es durchdringt sie nicht vollständig.

CLI und Tool-Nähe: überraschend belastbar

Der CLI-Benchmark ist mit 89,0 % eine der stärksten Disziplinen. Das ist kein Zufall. Der Badge „Interactive Tool Expert“ bekommt hier Substanz. Gemma 4 31B (Cloud API) scheint mit klaren operativen Anweisungen, Kommando-Strukturen und handlungsorientierten Aufgaben gut zurechtzukommen. Für Nutzer, die konkrete Schritte, brauchbare Befehle und eine direkte Antwort wollen, ist das eine echte Stärke.

Das passt auch architektonisch. Instruct-Modelle sind oft dort am besten, wo die Aufgabe nicht nach Ausschmückung verlangt, sondern nach sauberer Exekution. Gemma zeigt genau diesen Zug. Es ist kein Modell, das sich in Meta-Reflexion gefällt. Wenn es einen Shell-Befehl, einen Ablauf oder eine strukturierte Transformationsaufgabe ausführen soll, wird es deutlich zielgenauer.

Für DevOps-nahe Nutzung bedeutet das: als Assistent für Standardoperationen, Checklisten, Ablaufbeschreibungen und Tool-nahe Textarbeit gut geeignet. Für wirklich riskante One-Shot-Automation ohne menschliche Kontrolle bleibt wegen der Stabilitätsausreißer trotzdem Vorsicht Pflicht.

Reasoning und Logik: korrekt, aber nicht tief genug

Im Bereich Logical Reasoning landet Gemma 4 31B (Cloud API) bei 73,3 %. Das ist auf dem Papier ordentlich, in der qualitativen Betrachtung aber sehr aufschlussreich. Bei einem klassischen Wächterrätsel kam das Modell zur richtigen Lösung, erklärte den doppelten Umkehrmechanismus korrekt und hielt die geforderte Struktur sauber ein. Das Fundament stimmt also.

Die Schwäche liegt wieder in der Ausarbeitung. Der Judge bescheinigt korrekte Logik, aber begrenzte Alternative Exploration und zu wenig konzeptionelle Verallgemeinerung. Gemma löst das konkrete Problem, abstrahiert aber nicht weit genug darüber hinaus. Es erklärt, wie man diese Tür öffnet. Es lehrt nicht wirklich, warum dieses Schlossprinzip allgemein funktioniert.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den Tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 73 %, was dem allgemeinen Leistungsniveau des Modells entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.

Das ist mehr als ein akademischer Formfehler. Wer Modelle in Agenten-Frameworks oder streng formatierte Workflows einbindet, braucht nicht nur gute Gedanken, sondern auch das geforderte Antwortschema. Wenn ein Modell die Verpackung nach Policy-Lage neu verhandelt, ist das im Produktiveinsatz unerquicklich. Der Nutzer bestellt ein bestimmtes Format. Das Modell diskutiert die Bestellung.

Hinzu kommt das Stabilitätsproblem dieses Moduls. Im Reasoning-Bereich lag die modulbezogene P95-Antwortzeit bei 143,35 Sekunden, dazu kam der einzige Timeout des Gesamtlaufs. Das Gesamtmodell wirkt also nicht grundsätzlich denkfaul, aber sobald Aufgaben mehrstufig und formstrikt werden, zieht die Latenz brutal an. Genau dann, wenn der Nutzer eigentlich Verlässlichkeit braucht.

Dokumentationsqualität: sachlich, nützlich, aber mit merklicher Flughöhe nach unten

Die Documentation Quality fällt mit 64,51 % deutlich gegenüber CLI und Content ab. Das ist einer der Bereiche, in denen Gemma 4 31B (Cloud API) seinen Score spürbar liegen lässt. Typisch ist dabei nicht Chaos, sondern Unterlieferung. Das Modell schreibt in der Regel ordentlich strukturiert, hält sich an Vorgaben und bleibt innerhalb des Tokenrahmens. Was fehlt, ist häufig die professionelle Tiefe, die gute Dokumentation von brauchbarer Dokumentation trennt.

Gerade bei Doku-Aufgaben braucht man mehr als nur klare Sprache. Man braucht Vollständigkeit, Priorisierung, realistische Randfälle und die Fähigkeit, Material so aufzubereiten, dass der nächste Mensch nicht nur informiert, sondern arbeitsfähig wird. Gemma erreicht diesen Schwellenwert oft, aber nicht souverän. Die Dokumentation ist lesbar. Sie ist nur nicht immer belastbar genug, um ohne Nacharbeit direkt in ein Team-Wiki zu wandern.

Dass das Modell hier trotzdem token-ökonomisch bleibt, ist immerhin ein Trost. Es produziert im Modul durchschnittlich 1872 Tokens bei einem Fleet-Median von 2821. Kürze allein ist aber keine Tugend, wenn der letzte Meter Erklärung fehlt. Ein Handbuch darf kein Telegramm sein.

Content Transformation: eine echte Stärke mit kleinen Schönheitsfehlern

Mit 79,12 % gehört Content Transformation & Adaption zu den klaren Pluspunkten des Modells. Das qualitative Beispiel eines deutschsprachigen Video-Skripts zeigt warum: Gemma 4 31B (Cloud API) baut eine brauchbare Produktionsstruktur mit Hook, Zeitmarken, Screen-Annotations, Production-Cues, Troubleshooting und Call-to-Action. Das ist kein bloßes Umschreiben, sondern funktionale Adaption.

Bemerkenswert ist dabei die Nutzbarkeit. Der Judge nennt das Ergebnis „immediately usable by a video producer“. Das ist ein starkes Kompliment, weil es nicht von Stil, sondern von Produktionsreife spricht. Genau in solchen Aufgaben spielt das Modell seine Instruct-DNA aus. Es ordnet Material in ein vorgegebenes Format, hält die Maschine am Laufen und verliert sich nicht in Textnebel.

Die Abzüge kommen aus der strategischen Tiefe. Das Modell liefert etwa eine schwächere Pattern-Interrupt-Inszenierung und nutzt emotionale Zuspitzungen weniger geschickt als die Referenz. Das heißt übersetzt: Es kann professionell umbauen, aber nicht immer mit dem letzten Gespür für Dramaturgie und Publikumspsychologie. Wer einen guten Editor-Assistenten sucht, wird zufrieden sein. Wer einen kreativen Producer erwartet, schaut sich vielleicht weiter um.

UX Writing und Microcopy: sauber, aber mit angezogener Handbremse

Im UX-Writing erreicht Gemma 4 31B (Cloud API) 68,67 %. Das ist kein Desaster, aber unter den Erwartungen für ein Modell, das in strukturierten Kurztexten eigentlich glänzen sollte. Die qualitative Probe zeigt die Grundtugenden: Es liefert korrekte Tabellen, kurze Optimierungsschritte und progressive Offenlegung. Formal ist das alles in Ordnung.

Der Qualitätsabstand entsteht bei Ton und Schärfe. Gute Microcopy ist komprimierte Produktintelligenz. Sie muss klar, knapp und psychologisch sauber sein. Gemma macht selten etwas peinlich falsch, aber oft etwas nur ausreichend gut. Die Texte funktionieren. Sie zünden nicht. Das ist ein Unterschied, den man gerade in Onboarding-Flows, Fehlermeldungen und Conversion-nahen Oberflächen sofort merkt.

Hier zeigt sich die Grenze eines Generalisten recht deutlich. Ein spezialisiertes Sprachgefühl für UX hat das Modell nicht. Es kann Regeln befolgen, Umformulierungen erstellen und Strukturen verbessern. Aber es trifft den Ton nicht immer mit der Präzision, die aus „verständlich“ ein „sehr gut“ macht.

Cultural Intelligence: ordentlich lokalisiert, nicht immer idiomatisch elegant

Die Cultural Intelligence liegt bei 72,36 %. Das qualitative Beispiel einer toxischen Stellenanzeige ist exemplarisch: Gemma 4 31B (Cloud API) antwortet vollständig auf Deutsch, entfernt toxische und geschlechtercodierte Begriffe sauber und erzeugt eine inklusive, professionelle Fassung. Das ist im Kern gelungen.

Was fehlt, ist die feine idiomatische Klinge. Der Judge lobt die Funktionalität, sieht aber beim Goldstandard mehr kulturelle Nuance und besseres Recruiting-Vokabular. Gemma wählt eher sichere, etwas wörtlichere Formulierungen. Das Resultat ist brauchbar, aber sprachlich nicht ganz auf dem Niveau eines Redakteurs oder erfahrenen HR-Texters.

Für internationale Teams ist das eine brauchbare Nachricht mit Einschränkung. Das Modell macht keine groben kulturellen Fehltritte. Es landet nur nicht immer bei der elegantesten lokalen Form. Es übersetzt Sinn zuverlässig. Es übersetzt Stil nicht immer vollständig.

Kostenbild: sehr günstig, angenehm diszipliniert

Preislich ist Gemma 4 31B (Cloud API) fast schon provokativ günstig: 0,14 Dollar pro Million Input-Tokens und 0,40 Dollar pro Million Output-Tokens. Der gesamte Benchmarklauf kostete laut Leaderboard 0,0177 Dollar. Das ist ein Preisniveau, bei dem man experimentieren kann, ohne bei jeder Antwort an die Finanzabteilung zu denken.

Wichtig ist, dass das Modell diese günstige Tarifierung nicht durch überlange Antworten sabotiert. Genau das tut es nicht. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Im Gegenteil: Gemma verhält sich token-ökonomisch und bleibt in allen ausgewiesenen Modulen unter dem Fleet-Median. Für Cloud-Nutzung ist das ein handfester Vorteil. Niedriger Preis plus knappe Ausgabe ist die seltene Kombination aus Sparsamkeit und Disziplin.

Datenschutz und Datenhoheit

Bei der Datenhoheit ist die Lage klar und für europäische Unternehmen nicht folgenlos. Das berechnete Sovereign Risk liegt bei HIGH. Begründung: Anbieter und Deployment unterliegen US-Recht, konkret dem CLOUD Act, und laut Vendor Card ist der Datenstandort USA. Für Nutzer in Deutschland und der EU bedeutet das: Selbst wenn vertragliche Schutzmechanismen bestehen, können US-Behörden unter bestimmten Voraussetzungen Zugriff auf verarbeitete Daten verlangen. Das ist keine theoretische Fußnote, sondern geltendes Recht.

Positiv ist, dass laut Vendor Card ein GDPR DPA verfügbar ist. Für Unternehmen, die DSGVO-konform arbeiten müssen, ist das die Mindestvoraussetzung, aber eben nicht die Entwarnung. Bei der Datenspeicherung nennt die Card -1 Tage, also keine klar verifizierte feste Retentionsdauer im üblichen Sinn. Auch das sollte man vor produktiver Nutzung vertraglich und technisch sauber klären.

Das Weights-Provenienz-Risiko liegt bei MEDIUM. Der Grund unterscheidet sich nur teilweise von der Deployment-Lage: Die Gewichte stammen von Google DeepMind, also ebenfalls aus einem US-Kontext, sind aber als Open Weights unter Apache 2.0 öffentlich verfügbar. Für Souveränität ist das grundsätzlich besser als ein komplett geschlossenes Modell. Für die konkret bewertete Cloud-Nutzung ändert es jedoch nichts daran, dass die Daten den US-Rechtsraum berühren.

Fazit

Gemma 4 31B (Cloud API) ist ein gutes, diszipliniertes Cloud Open-Weights-Modell von Google DeepMind, das seine Generalist-/Instruct-Rolle glaubwürdig erfüllt. Es ist stark in CLI, gut in Content Transformation, ordentlich in Reasoning und Security-Analyse, aber spürbar schwächer in Dokumentation und feiner UX-/Kultur-Sprache. Sein Charakter ist klar: kein Genie, kein Schwätzer, kein Blender. Eher ein sachlicher Arbeitsassistent, der viel richtig macht und sich nur selten überschätzt.

Für den Einsatz empfiehlt sich das Modell vor allem dort, wo klare Anweisungen, strukturierte Ausgaben und Kostenkontrolle wichtiger sind als maximale intellektuelle Tiefe. Gute Kandidaten sind Tool-nahe Assistenz, Content-Umbau, operative Wissensarbeit und erste Security-Sichtung. Weniger gut passt es für hochkritische Audits, reasoning-lastige Agentenketten mit strikter Formatpflicht und Doku-Aufgaben, die ohne redaktionelle Nacharbeit sofort veröffentlichungsreif sein müssen.

Das eigentliche Problem ist nicht Qualität, sondern Verlässlichkeit unter Druck. Ein Timeout bei nur 43 Tests und eine P95-Antwortzeit von 62,8 Sekunden sind für eine Cloud-API kein Schönheitsfehler, sondern ein Warnsignal. Wer Gemma 4 31B (Cloud API) produktiv einsetzt, sollte Retrys, Validierung und notfalls einen Fallback fest einplanen. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig, als sich großspurig zu blamieren.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.