Gemma 4 31B (Cloud API)

Gemma 4 31B als Cloud-API-Variante von Google DeepMind, mit nativem Zugang zu Text-, Bild-, Audio- und Video-Eingaben ohne lokale Hardware-Anforderungen. Unter Apache-2.0-Lizenz stehen die Gewichte auch für lokales Deployment zur Verfügung, diese Variante beschreibt jedoch die Cloud-Nutzung mit einem Kontextfenster von 128.000 Tokens.

Google Version 31b-cloud Kommerzielle Nutzung erlaubt Dense 31 B (31 B aktiv) 256 K Context 06/2025 $0.14 / $0.4 per 1M

Open Weights
Workstation
OR
Text
Vision
Audio
Video
Instruction-Tuned
Interactive

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei Cloud-API-Nutzung verlassen Daten das lokale Netzwerk – CLOUD Act ist direkt relevant. Die Gewichte sind als Open-Weights-Modell unter Apache 2.0 öffentlich zugänglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	20	60

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 5.19; First Request

MCP: 0; Protocol Latency

Synthesis: 11.24; Response Generation

Total: 98.57; Sum of All Phases

Token: 3406; Input + Output

Cost: $0.0007; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Gemma 4 31B valide Tool-Calls produziert und keine Halluzination im Lauf zeigte, aber die Synthesetreue mit Combined 74.17 und P2 60 für verlässliche Ergebnisverdichtung nicht stabil genug ist.

Tool-Execution-Profil

Das Modell ist bei der Tool-Ausführung klar produktionsnah. Es wählt Werkzeuge nicht nur mechanisch, sondern erkennt im Test Web Search & Tool Selection, der die Unterscheidung zwischen Suche und direktem Abruf prüft, zuverlässig, dass zuerst web_search nötig ist. Das spricht für brauchbare Werkzeugwahl in offenen Aufgaben. Beim URL-Construction-Test, der die eigenständige Herleitung einer Ziel-URL und anschließendes fetch misst, bleibt es brauchbar, aber nicht deterministisch genug. P1 80 heißt hier: Der Call ist valide, doch die Präzision bei abgeleiteten URLs ist nicht durchgehend belastbar. MCP-seitig gab es keine Auffälligkeiten. Tool-Call war valide, Retry war nicht erforderlich. Für orchestrierte Pipelines ist das ein gutes Signal.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. Die stärksten Ausschläge liegen nicht in der Tool-Nutzung, sondern in der Nachverarbeitung. HTTP Fetch & Extract und Tool Failure Handling (404) liegen bei P2 80 und sind damit solide. Kritisch sind aber EU License Research mit P2 40 und Multilingual Search & Synthesis mit P2 20. Das Modell holt also Informationen sauber herein, komprimiert und priorisiert sie aber ungleichmäßig. Für Compliance, Policy oder mehrsprachige Research-Flows ist das zu unsicher.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus dem Training beantwortet werden, bleibt das Modell formal im sicheren Bereich. Content-Verification-State A, keine Halluzination erkannt. Das Vertrauen in die Tool-Grenze ist damit vorhanden, auch wenn die inhaltliche Verdichtung schwach ausfällt.

Fehlerresilienz

Bei Tool-Fehlern reagiert das Modell akzeptabel. Im 404-Test, der transparente Fehlerkommunikation gegen erfundenen Ersatzinhalt misst, meldet es den Fehlschlag, statt Seiteninhalt zu erfinden. P2 80 ohne Halluzination trotz 404 reicht für Produktion aus. Das ist kein Komfortmerkmal, sondern eine Basiseigenschaft für sichere Tool-Pipelines.

Souveränitätsprofil

Nicht lokal betreibbar. Cloud-only unter Google Gemma Terms of Use. Leistung liegt 1.37 Punkte unter dem Fleet-Ø von 67.84. Damit kein Souveränitätsgewinn durch lokale Kontrolle, sondern ein proprietärer Cloud-Kompromiss ohne klaren Leistungsaufschlag.

Fazit & Empfehlung

Geeignet für MCP-Pipelines, in denen korrekte Tool-Wahl, valides Calling und sauberes Fehlerverhalten wichtiger sind als hochwertige Endverdichtung. Das passt zu Retrieval-, Fetch-, Kontroll- und Vorstufen-Workflows mit nachgelagerter Verifikation. Nicht geeignet für Pipelines, die aus Tool-Output sofort belastbare Entscheidungstexte, Compliance-Summaries oder mehrsprachige Synthesen erzeugen sollen. Dafür braucht es ein Modell mit deutlich höherer Synthesetreue.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.