GLM 4.6

GLM-4.6 ist Zhipu AIs Frontier-Sprachmodell mit Schwerpunkt auf chinesischer und englischer Sprach-kompetenz. Das Modell arbeitet mit einem Kontextfenster von 128.000 Tokens und unterstützt Tool-Use für agentische Workflows. Aufgrund der chinesischen Hersteller-Jurisdiktion ist eine gesonderte Datenschutz-Bewertung erforderlich, die kommerzielle Nutzung unterliegt Einschränkungen.

Zhipu AI Version 4.6 Kommerzielle Nutzung eingeschränkt Dense 128 K Context 06/2025 $0.39 / $1.9 per 1M

  • Restricted Weights
  • Frontier
  • OR
  • Text
  • Instruction-Tuned
  • Batch

Sovereign Risk: HIGH Zhipu AI ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
16.36
First Request
MCP
0.93
Protocol Latency
Synthesis
33.4
Response Generation
Total
304.16
Sum of All Phases
Token
7889
Input + Output
Cost
$0.0057
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil GLM 4.6 valide Tool-Calls erzeugt und nicht halluziniert, aber die Synthesequalität mit Combined 75.92 nur dann tragfähig ist, wenn nachgelagerte Validierung die Verdichtung kontrolliert.

Tool-Execution-Profil

In der Werkzeugausführung wirkt das Modell kompetent. Der Tool-Call war valide, Halluzination wurde nicht erkannt, und in Web Search & Tool Selection, das ohne expliziten Hinweis die Wahl zwischen Suche und Direktabruf prüft, traf es die richtige Entscheidung sicher. Das spricht gegen starres Musterverhalten und für echte Tool-Wahl im Kontext. Schwächer ist es bei URL Construction & Fetch, das die korrekte Ziel-URL aus Eigenwissen ableitet und dann abruft: brauchbar, aber nicht deterministisch genug für Pipelines, die exakte Endpunkte ohne Korrekturschritt erwarten. Dass ein Retry erforderlich war, wirkt hier eher wie ein Protokoll- oder Formatproblem als ein Verständnisfehler. Die Ausführungskompetenz ist hoch, aber nicht sauber genug für Zero-Touch-Orchestrierung.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. P2 von 63.33 ist der eigentliche Grenzwert dieses Modells. In HTTP Fetch & Extract, das strukturierte Fakten aus echtem Seiteninhalt zieht, arbeitet es solide. In Multilingual Search & Synthesis, das sprachübergreifende Recherche und deutsche Verdichtung prüft, fällt die Qualität jedoch klar ab. Das Modell findet die Quellen, komprimiert sie aber nicht konsistent präzise genug für belastbare Entscheidungsoutputs.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, bleibt das Modell grundsätzlich im Arbeitsmodus der Pipeline. P2 60 ist nicht stark, aber der Vertrauensbefund ist positiv: Content-Verification-State A, keine Halluzination. Für Compliance-nahe Retrieval-Strecken ist das wichtiger als sprachliche Eleganz.

Fehlerresilienz

Beim Tool Failure Handling (404), das die Reaktion auf fehlschlagende Abrufe prüft, kommuniziert GLM 4.6 transparent statt Seiteninhalt zu erfinden. P2 80 bei ausbleibender Halluzination ist für Produktion akzeptabel. Das Modell bricht Vertrauen also nicht genau dort, wo viele Tool-Modelle riskant werden.

Betriebsprofil

Call 1: 16.36s. Call 2: 33.40s. MCP-Latenz: 0.93s. Total: 304.16s.
Kosten pro Run: $0.005716.
Urteil: langsam, aber sehr günstig im Verhältnis zur gezeigten Tool-Ausführung.

Fazit & Empfehlung

Geeignet für MCP-Pipelines mit Web-Recherche, Abruf, Fehlerbehandlung und nachgelagerter Prüfung der Antwortverdichtung. Nicht geeignet für vollautomatisierte Entscheidungsstrecken, in denen die Endantwort selbst bereits die verlässliche Wahrheitsschicht sein muss, besonders bei mehrsprachiger Synthese oder URL-genauer Retrieval-Logik. Zusätzlich bleibt der Produktionseinsatz wegen der eingeschränkten kommerziellen Nutzung und des hohen Provenienzrisikos nur in eng kontrollierten Umgebungen vertretbar.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.