Gemma 3 12B IT (Q4_K_M)

Gemma 3 12B Instruct als Q4-Quantisierung, optimiert für lokale Inferenz auf ressourcenbeschränkter Hardware. Das Modell verarbeitet Text-und Bildeingaben bei einem Kontextfenster von 128.000 Tokens, ist auf direkte Aufgabenbearbeitung ausgelegt und arbeitet ohne externe Cloud-Verbindung. Lizenziert unter den Google Gemma Terms of Use, die kommerzielle Nutzung erlauben.

Google Version Q4_K_M (GGUF) Kommerzielle Nutzung erlaubt Dense 12 B (12 B aktiv) 128 K Context 12/2024 $0 / $0 per 1M

  • Restricted Weights
  • Desktop
  • SPRK
  • Text
  • Vision
  • Instruction-Tuned
  • Interactive

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der jedoch primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
69.64
Routine
44.36
Reasoning
25.28

Rank #56

LLM Judge Avg
3.19
100 Coverage
Avg Task Duration
28.09
️ Interactive
Token Rate
39.06
Output Rate
P95 Latency
66.74
Top 5 %
Total Tokens
51800
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 51800 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemma 3 12B IT (Q4_K_M) Bestes Modell Ø Alle Modelle
Code Quality 69.5
CLI Benchmark 87.22
Logical Reasoning 59.93
UX Writing 64.55
Documentation 62.02
Content Transform. 75.77
Cultural Intelligence 77.3
Synthesis Quality 48.33
Tool Execution 83.33
ToolUse Score 64.38
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil