Gemma 4 31B (Cloud API)

Gemma 4 31B als Cloud-API-Variante von Google DeepMind, mit nativem Zugang zu Text-, Bild-, Audio- und Video-Eingaben ohne lokale Hardware-Anforderungen. Unter Apache-2.0-Lizenz stehen die Gewichte auch für lokales Deployment zur Verfügung, diese Variante beschreibt jedoch die Cloud-Nutzung mit einem Kontextfenster von 128.000 Tokens.

Google Version 31b-cloud Kommerzielle Nutzung erlaubt Dense 31 B (31 B aktiv) 256 K Context 06/2025 $0.14 / $0.4 per 1M

Open Weights
Workstation
OR
Text
Vision
Audio
Video
Instruction-Tuned
Interactive

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Bei Cloud-API-Nutzung verlassen Daten das lokale Netzwerk – CLOUD Act ist direkt relevant. Die Gewichte sind als Open-Weights-Modell unter Apache 2.0 öffentlich zugänglich.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver: 73.24

Routine: 45.43
Reasoning: 27.81

Rank #34

LLM Judge Avg: 3.72; 100 Coverage

Avg Task Duration: 23.12; ️ Interactive

Token Rate: 31.23; Output Rate

P95 Latency: 59.23; Top 5 %

Total Tokens: 44300; Output Volume

Cost per 1K: $0.0004; USD / 1K Requests

Benchmark Cost: $0.02; Total · 44300 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 4 31B (Cloud API) Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Gemma 4 31B (Cloud API)

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil