GLM-5.1

GLM-5.1

GLM-5.1 ist Z.AIs Post-Training-Upgrade mit 754 Milliarden Gesamt- und 40 Milliarden aktiven Parametern in MoE-Architektur, optimiert für langfristige agentische Coding-Workflows mit bis zu acht Stunden autonomer Ausführung. Das Kontextfenster umfasst 200.000 Tokens, die Gewichte sind unter MIT-Lizenz als Open-Weights-Modell verfügbar.

Zhipu AI Version 5.1 Kommerzielle Nutzung erlaubt MoE 754 B (40 B aktiv) 200 K Context 12/2025 $1.05 / $3.5 per 1M

Open Weights
Frontier
OR
Text
Instruction-Tuned
Agentic Orchestrator
Interactive

Sovereign Risk: HIGH Z.AI (formerly Zhipu AI) ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten. Bei rein lokaler Inferenz entfällt das Cloud-Act-äquivalente Risiko.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 9.61; First Request

MCP: 0.77; Protocol Latency

Synthesis: 41.74; Response Generation

Total: 312.72; Sum of All Phases

Token: 7576; Input + Output

Cost: $0.0141; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil GLM 5.1 Tools zuverlässig und protokollkonform nutzt, aber die Synthesequalität mit erfundener oder unsauber verdichteter Ausgabe für vertrauenskritische Pipelines noch zu instabil ist.

Tool-Execution-Profil

Die Tool-Ausführung ist die klare Stärke dieses Modells. Mit P1 90 produziert GLM 5.1 valide Calls, bleibt MCP-konform und brauchte keinen Retry. Das spricht gegen ein Formatproblem und für belastbares Tooling-Verhalten. Besonders wichtig: Beim Web-Search-and-Tool-Selection-Test, der prüft ob ohne Hinweis search statt fetch gewählt wird, traf es die Werkzeugwahl sauber. Das zeigt echte Werkzeugintelligenz und nicht nur starres Fetch-first-Verhalten. Beim URL-Construction-and-Fetch-Test, der die präzise Ableitung einer Ziel-URL misst, bleibt es brauchbar, aber weniger deterministisch. Für bekannte Zielstrukturen reicht das oft. Für Pipelines mit harter URL-Präzision sollte man Guardrails oder Validierung davor setzen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. P2 59.17 ist für produktive Tool-Pipelines der kritische Wert, weil hier nicht der Call, sondern die Übergabe in verwertbare Antwortform scheitert. Positiv sind HTTP Fetch & Extract sowie Tool Failure Handling (404) mit jeweils 80. Schwach sind aber EU License Research mit 40 und Web Search & Tool Selection mit 35. Das Muster ist klar: Es findet die Quelle oft, verdichtet sie aber nicht stabil genug in präzise, belastbare Aussagen.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau diesen Fehler prüfen soll, halluziniert es nicht und der Verifikationsstatus ist sauber. Das ist ein wichtiges Vertrauenssignal. Gleichzeitig ist global ein Halluzinationsereignis erkannt worden. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Wenn ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, untergräbt es die gesamte Tool-Infrastruktur.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei fehlgeschlagenem Tool-Aufruf misst, reagiert GLM 5.1 produktionsgerecht. Es kommuniziert den Fehler offen und erfindet keinen Seiteninhalt. Genau dieses Verhalten ist für Betriebspipelines akzeptabel, weil Orchestrierung und Fallbacks darauf aufsetzen können.

Betriebsprofil

Call 1: 9.61s. Call 2: 41.74s. MCP-Latenz: 0.77s. Total: 312.72s. Klar langsam. Kosten pro Run: 0.014060. Günstig bis moderat, aber die Laufzeit steht nicht im Verhältnis zu einer nur mittleren Syntheseleistung.

Fazit & Empfehlung

Geeignet für MCP-Pipelines, in denen Tool-Auswahl, Web-Recherche und transparente Fehlerbehandlung wichtiger sind als die finale sprachliche Verdichtung. Dazu zählen Recherche-Vorstufen, Routing, Source Collection und Human-in-the-Loop-Workflows. Nicht geeignet für Compliance, regulatorische Zusammenfassungen, Executive Briefs oder andere Endpunkte, in denen die Antwort selbst als verlässliches Arbeitsprodukt gelten muss. Wenn Sie es einsetzen, dann mit strikter Output-Prüfung und bevorzugt als Tool-Operator, nicht als letzte Syntheseschicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung