Gemma 3 12B IT (Q4_K_M)

Gemma 3 12B Instruct als Q4-Quantisierung, optimiert für lokale Inferenz auf ressourcenbeschränkter Hardware. Das Modell verarbeitet Text-und Bildeingaben bei einem Kontextfenster von 128.000 Tokens, ist auf direkte Aufgabenbearbeitung ausgelegt und arbeitet ohne externe Cloud-Verbindung. Lizenziert unter den Google Gemma Terms of Use, die kommerzielle Nutzung erlauben.

Google Version Q4_K_M (GGUF) Kommerzielle Nutzung erlaubt Dense 12 B (12 B aktiv) 128 K Context 12/2024 $0 / $0 per 1M

Restricted Weights
Desktop
SPRK
Text
Vision
Instruction-Tuned
Interactive

Sovereign Risk: LOW Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, der jedoch primär bei API-/Cloud-Nutzung relevant ist, nicht bei lokal betriebenen Gewichten. Bei ausschliesslich lokaler Inferenz ohne Cloud-Verbindung ist das Risikoszenario minimal.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	35	57.5
Tool Failure Handling (404)	40	60	44
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

57.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.22; First Request

MCP: 2.39; Protocol Latency

Synthesis: 10.85; Response Generation

Total: 92.74; Sum of All Phases

Token: 10209; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung mit P1 83.33 grundsätzlich tragfähig wirkt, aber ein invalider Tool-Call und erkannte Halluzinationen die Vertrauenskette für produktive MCP-Pipelines beschädigen. Der Combined-Score von 64.38 stützt kein unüberwachtes Routing auf dieses Modell.

Tool-Execution-Profil

Gemma 3 12B IT zeigt auf der Ausführungsseite brauchbare Grundkompetenz. Es kann Tools offenbar in vielen Fällen anstoßen und arbeitet ohne Retry-Bedarf, was gegen ein reines Formatproblem spricht. Kritisch bleibt aber, dass der Tool-Call nicht durchgängig valide war. Für MCP-Betrieb heißt das: Die Schwäche liegt eher in der letzten Meile der Protokolltreue als in kompletter Tool-Unfähigkeit.

Bei der Werkzeugwahl bleibt das Bild unvollständig, weil für Web Search & Tool Selection sowie URL Construction & Fetch keine Einzelscores vorliegen. Damit gibt es keinen belastbaren Beleg dafür, dass das Modell situativ zwischen web_search und fetch unterscheidet, statt einem festen Antwortmuster zu folgen. Für Architekturen mit dynamischer Tool-Selektion ist das ein reales Integrationsrisiko. In deterministischen Pipelines mit vorgegebenem Tool-Pfad ist es deutlich besser aufgehoben.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Eher nur begrenzt zuverlässig. P2 48.33 ist für produktive Ergebnisverdichtung zu niedrig, wenn aus Fetch- oder Search-Resultaten präzise Fakten, Einschränkungen oder Versionen extrahiert werden müssen. Das Modell kann Antworten komprimieren, aber nicht stabil genug, um verdichtete Ausgaben ohne Nachkontrolle in nachgelagerte Systeme zu geben.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, hat es nicht halluziniert. Das ist der wichtigste positive Befund. Gleichzeitig bleibt der globale Halluzinations-Flag ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, ist nicht nur die Antwortqualität betroffen, sondern die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Beim 404-Test, der transparente Fehlerkommunikation gegen erfundenen Ersatzinhalt misst, hat das Modell keinen Seiteninhalt halluziniert. Das ist produktionsreif im engeren Sinn. Ein Tool-Fehler wird damit nicht automatisch in einen inhaltlichen Fehler verwandelt. Für robuste Pipelines ist das wichtiger als reine Antwortglätte.

Souveränitätsprofil

Lokal betreibbar und damit für souveräne Setups attraktiv. Leistung liegt 1.37 Punkte unter dem Fleet-Ø von 67.84. Das ist kein Ausreißer nach unten, aber auch kein Souveränitätsbonus durch überlegene Tool-Kompetenz. Der lokale Betrieb ist hier der primäre Mehrwert, nicht die Qualitätsführerschaft.

Fazit & Empfehlung

Geeignet für lokale, kostenstabile Pipelines mit enger Führung: vorselektierte Tools, klare Prompts, menschliche oder regelbasierte Endkontrolle und tolerierbare Verdichtungsunschärfe. Nicht geeignet als autonomer Tool-Orchestrator, für Compliance-nahe Rechercheketten oder für Workflows, in denen die Zusammenfassung selbst als belastbares Systemartefakt weiterverarbeitet wird. Wenn Sie es einsetzen, dann als ausführendes Mid-Layer-Modell mit Guardrails, nicht als vertrauenswürdige Endinstanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.