GLM-5.2

GLM-5.2 ist Z.AIs aktuelles Flaggschiff mit 744 Milliarden Gesamt- und 40 Milliarden aktiven Parametern in MoE-Architektur, optimiert für komplexe Engineering-Workflows und langlaufende Coding-Aufgaben. Das Kontextfenster umfasst eine Million Tokens, die Gewichte sind unter MIT-Lizenz als Open-Weights-Modell verfügbar.

Zhipu AI Version 5.2 Kommerzielle Nutzung erlaubt MoE 744 B (40 B aktiv) 1000 K Context 12/2025 $1.4 / $4.4 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: HIGH Z.AI (formerly Zhipu AI) ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten. Bei rein lokaler Inferenz mit den MIT-lizenzierten Gewichten entfällt das Cloud-Act-äquivalente Risiko.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
4.59
First Request
MCP
0.83
Protocol Latency
Synthesis
21.21
Response Generation
Total
159.79
Sum of All Phases
Token
14981
Input + Output
Cost
$0.047
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil GLM-5.2 stark in der Tool-Ausführung ist, aber mit erkannter Halluzination und nicht validem Tool-Call kein uneingeschränkt vertrauenswürdiger Kandidat für MCP-Pipelines mit harten Korrektheitsanforderungen ist.

Tool-Execution-Profil

GLM-5.2 zeigt echte Werkzeugintelligenz, nicht nur starres Musterverhalten. Beim Test Web Search & Tool Selection, der prüft ob ohne Hinweis web_search statt fetch gewählt wird, trifft es die richtige Entscheidung zuverlässig. Das spricht für brauchbare Planungslogik in dynamischen Pipelines. Auch bei EU License Research arbeitet es korrekt tool-basiert statt aus dem Stand zu antworten.

Schwächer wird es bei der Protokollschärfe. Der Tool-Call war insgesamt nicht valide, obwohl kein Retry nötig war. Das deutet eher auf Format- oder Argumentpräzision als auf ein Verständnisproblem. Beim URL-Construction-Test konstruiert es die Ziel-URL brauchbar, aber nicht robust genug für deterministische Abläufe. Für produktive MCP-Setups heißt das: gute Tool-Wahl, aber die Call-Schicht braucht Guardrails, Schema-Validierung und im Zweifel serverseitige Korrektur.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur mäßig. Die P2-Leistung ist mit 55.83 der klare Schwachpunkt. GLM-5.2 holt Informationen aus Tools, verdichtet sie aber nicht konsistent präzise weiter. Das sieht man besonders bei Web Search & Tool Selection und Multilingual Search & Synthesis, wo die Ausführung stark ist, die nachgelagerte Zusammenführung aber sichtbar an Genauigkeit verliert.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research bleibt es im akzeptablen Bereich. Dieser Test prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen geholt statt aus Trainingswissen behauptet werden. Content-Verification-State A und keine Halluzination sind hier ein Vertrauenssignal. Der globale Halluzinationsbefund bleibt trotzdem ein Sicherheitsrisiko: Wenn ein Modell in einer Tool-Pipeline erfundene Fakten als Tool-Ergebnis ausgibt, beschädigt es die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Bei Tool-Fehlern reagiert GLM-5.2 produktionstauglich. Im 404-Test, der transparentes Fehlermanagement statt erfundenem Seiteninhalt misst, kommuniziert das Modell den Fehlschlag sauber und halluziniert keinen Ersatzinhalt. Das ist für operative Systeme akzeptabel und deutlich wichtiger als elegante Formulierungen.

Betriebsprofil

Total 159.79s. Langsam.
Call 1 4.59s, Call 2 21.21s, MCP-Latenz 0.83s.
Kosten pro Run 0.047017. Eher günstig für Frontier-Betrieb, aber die Laufzeit ist im Verhältnis zur Leistung hoch.

Fazit & Empfehlung

Geeignet für agentische Recherche- und Orchestrierungs-Pipelines, in denen Tool-Wahl, lange Kontexte und transparentes Fehlerverhalten wichtiger sind als perfekte Endverdichtung. Nicht geeignet für Compliance-, Policy- oder Customer-facing-Systeme, in denen jede Synthese direkt als verlässlicher Output gelten muss. Wenn Sie GLM-5.2 einsetzen, dann hinter strikter Tool-Call-Validierung, mit Output-Prüfung und vorzugsweise als ausführende Agentenschicht, nicht als letzte wahrheitsführende Instanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.