GLM 4.6

GLM 4.6

GLM-4.6 ist Zhipu AIs Frontier-Sprachmodell mit Schwerpunkt auf chinesischer und englischer Sprach-kompetenz. Das Modell arbeitet mit einem Kontextfenster von 128.000 Tokens und unterstützt Tool-Use für agentische Workflows. Aufgrund der chinesischen Hersteller-Jurisdiktion ist eine gesonderte Datenschutz-Bewertung erforderlich, die kommerzielle Nutzung unterliegt Einschränkungen.

Zhipu AI Version 4.6 Kommerzielle Nutzung eingeschränkt Dense 128 K Context 06/2025 $0.39 / $1.9 per 1M

Restricted Weights
Frontier
OR
Text
Instruction-Tuned
Batch

Sovereign Risk: HIGH Zhipu AI ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	75	80	77.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

77.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 16.36; First Request

MCP: 0.93; Protocol Latency

Synthesis: 33.4; Response Generation

Total: 304.16; Sum of All Phases

Token: 7889; Input + Output

Cost: $0.0057; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil GLM 4.6 valide Tool-Calls erzeugt und nicht halluziniert, aber die Synthesequalität mit Combined 75.92 nur dann tragfähig ist, wenn nachgelagerte Validierung die Verdichtung kontrolliert.

Tool-Execution-Profil

In der Werkzeugausführung wirkt das Modell kompetent. Der Tool-Call war valide, Halluzination wurde nicht erkannt, und in Web Search & Tool Selection, das ohne expliziten Hinweis die Wahl zwischen Suche und Direktabruf prüft, traf es die richtige Entscheidung sicher. Das spricht gegen starres Musterverhalten und für echte Tool-Wahl im Kontext. Schwächer ist es bei URL Construction & Fetch, das die korrekte Ziel-URL aus Eigenwissen ableitet und dann abruft: brauchbar, aber nicht deterministisch genug für Pipelines, die exakte Endpunkte ohne Korrekturschritt erwarten. Dass ein Retry erforderlich war, wirkt hier eher wie ein Protokoll- oder Formatproblem als ein Verständnisfehler. Die Ausführungskompetenz ist hoch, aber nicht sauber genug für Zero-Touch-Orchestrierung.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. P2 von 63.33 ist der eigentliche Grenzwert dieses Modells. In HTTP Fetch & Extract, das strukturierte Fakten aus echtem Seiteninhalt zieht, arbeitet es solide. In Multilingual Search & Synthesis, das sprachübergreifende Recherche und deutsche Verdichtung prüft, fällt die Qualität jedoch klar ab. Das Modell findet die Quellen, komprimiert sie aber nicht konsistent präzise genug für belastbare Entscheidungsoutputs.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, bleibt das Modell grundsätzlich im Arbeitsmodus der Pipeline. P2 60 ist nicht stark, aber der Vertrauensbefund ist positiv: Content-Verification-State A, keine Halluzination. Für Compliance-nahe Retrieval-Strecken ist das wichtiger als sprachliche Eleganz.

Fehlerresilienz

Beim Tool Failure Handling (404), das die Reaktion auf fehlschlagende Abrufe prüft, kommuniziert GLM 4.6 transparent statt Seiteninhalt zu erfinden. P2 80 bei ausbleibender Halluzination ist für Produktion akzeptabel. Das Modell bricht Vertrauen also nicht genau dort, wo viele Tool-Modelle riskant werden.

Betriebsprofil

Call 1: 16.36s. Call 2: 33.40s. MCP-Latenz: 0.93s. Total: 304.16s.
Kosten pro Run: $0.005716.
Urteil: langsam, aber sehr günstig im Verhältnis zur gezeigten Tool-Ausführung.

Fazit & Empfehlung

Geeignet für MCP-Pipelines mit Web-Recherche, Abruf, Fehlerbehandlung und nachgelagerter Prüfung der Antwortverdichtung. Nicht geeignet für vollautomatisierte Entscheidungsstrecken, in denen die Endantwort selbst bereits die verlässliche Wahrheitsschicht sein muss, besonders bei mehrsprachiger Synthese oder URL-genauer Retrieval-Logik. Zusätzlich bleibt der Produktionseinsatz wegen der eingeschränkten kommerziellen Nutzung und des hohen Provenienzrisikos nur in eng kontrollierten Umgebungen vertretbar.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung