GLM-5.2

GLM-5.2

GLM-5.2 ist Z.AIs aktuelles Flaggschiff mit 744 Milliarden Gesamt- und 40 Milliarden aktiven Parametern in MoE-Architektur, optimiert für komplexe Engineering-Workflows und langlaufende Coding-Aufgaben. Das Kontextfenster umfasst eine Million Tokens, die Gewichte sind unter MIT-Lizenz als Open-Weights-Modell verfügbar.

Zhipu AI Version 5.2 Kommerzielle Nutzung erlaubt MoE 744 B (40 B aktiv) 1000 K Context 12/2025 $1.4 / $4.4 per 1M

Open Weights
Frontier
OR
Text
Instruction-Tuned
Agentic Orchestrator
Interactive

Sovereign Risk: HIGH Z.AI (formerly Zhipu AI) ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten. Bei rein lokaler Inferenz mit den MIT-lizenzierten Gewichten entfällt das Cloud-Act-äquivalente Risiko.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 4.59; First Request

MCP: 0.83; Protocol Latency

Synthesis: 21.21; Response Generation

Total: 159.79; Sum of All Phases

Token: 14981; Input + Output

Cost: $0.047; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil GLM-5.2 stark in der Tool-Ausführung ist, aber mit erkannter Halluzination und nicht validem Tool-Call kein uneingeschränkt vertrauenswürdiger Kandidat für MCP-Pipelines mit harten Korrektheitsanforderungen ist.

Tool-Execution-Profil

GLM-5.2 zeigt echte Werkzeugintelligenz, nicht nur starres Musterverhalten. Beim Test Web Search & Tool Selection, der prüft ob ohne Hinweis web_search statt fetch gewählt wird, trifft es die richtige Entscheidung zuverlässig. Das spricht für brauchbare Planungslogik in dynamischen Pipelines. Auch bei EU License Research arbeitet es korrekt tool-basiert statt aus dem Stand zu antworten.

Schwächer wird es bei der Protokollschärfe. Der Tool-Call war insgesamt nicht valide, obwohl kein Retry nötig war. Das deutet eher auf Format- oder Argumentpräzision als auf ein Verständnisproblem. Beim URL-Construction-Test konstruiert es die Ziel-URL brauchbar, aber nicht robust genug für deterministische Abläufe. Für produktive MCP-Setups heißt das: gute Tool-Wahl, aber die Call-Schicht braucht Guardrails, Schema-Validierung und im Zweifel serverseitige Korrektur.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur mäßig. Die P2-Leistung ist mit 55.83 der klare Schwachpunkt. GLM-5.2 holt Informationen aus Tools, verdichtet sie aber nicht konsistent präzise weiter. Das sieht man besonders bei Web Search & Tool Selection und Multilingual Search & Synthesis, wo die Ausführung stark ist, die nachgelagerte Zusammenführung aber sichtbar an Genauigkeit verliert.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research bleibt es im akzeptablen Bereich. Dieser Test prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen geholt statt aus Trainingswissen behauptet werden. Content-Verification-State A und keine Halluzination sind hier ein Vertrauenssignal. Der globale Halluzinationsbefund bleibt trotzdem ein Sicherheitsrisiko: Wenn ein Modell in einer Tool-Pipeline erfundene Fakten als Tool-Ergebnis ausgibt, beschädigt es die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Bei Tool-Fehlern reagiert GLM-5.2 produktionstauglich. Im 404-Test, der transparentes Fehlermanagement statt erfundenem Seiteninhalt misst, kommuniziert das Modell den Fehlschlag sauber und halluziniert keinen Ersatzinhalt. Das ist für operative Systeme akzeptabel und deutlich wichtiger als elegante Formulierungen.

Betriebsprofil

Total 159.79s. Langsam.
Call 1 4.59s, Call 2 21.21s, MCP-Latenz 0.83s.
Kosten pro Run 0.047017. Eher günstig für Frontier-Betrieb, aber die Laufzeit ist im Verhältnis zur Leistung hoch.

Fazit & Empfehlung

Geeignet für agentische Recherche- und Orchestrierungs-Pipelines, in denen Tool-Wahl, lange Kontexte und transparentes Fehlerverhalten wichtiger sind als perfekte Endverdichtung. Nicht geeignet für Compliance-, Policy- oder Customer-facing-Systeme, in denen jede Synthese direkt als verlässlicher Output gelten muss. Wenn Sie GLM-5.2 einsetzen, dann hinter strikter Tool-Call-Validierung, mit Output-Prüfung und vorzugsweise als ausführende Agentenschicht, nicht als letzte wahrheitsführende Instanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung