GLM-5.1

GLM-5.1 ist Z.AIs Post-Training-Upgrade mit 754 Milliarden Gesamt- und 40 Milliarden aktiven Parametern in MoE-Architektur, optimiert für langfristige agentische Coding-Workflows mit bis zu acht Stunden autonomer Ausführung. Das Kontextfenster umfasst 200.000 Tokens, die Gewichte sind unter MIT-Lizenz als Open-Weights-Modell verfügbar.

Zhipu AI Version 5.1 Kommerzielle Nutzung erlaubt MoE 754 B (40 B aktiv) 200 K Context 12/2025 $1.05 / $3.5 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: HIGH Z.AI (formerly Zhipu AI) ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten. Bei rein lokaler Inferenz entfällt das Cloud-Act-äquivalente Risiko.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
9.61
First Request
MCP
0.77
Protocol Latency
Synthesis
41.74
Response Generation
Total
312.72
Sum of All Phases
Token
7576
Input + Output
Cost
$0.0141
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil GLM 5.1 Tools zuverlässig und protokollkonform nutzt, aber die Synthesequalität mit erfundener oder unsauber verdichteter Ausgabe für vertrauenskritische Pipelines noch zu instabil ist.

Tool-Execution-Profil

Die Tool-Ausführung ist die klare Stärke dieses Modells. Mit P1 90 produziert GLM 5.1 valide Calls, bleibt MCP-konform und brauchte keinen Retry. Das spricht gegen ein Formatproblem und für belastbares Tooling-Verhalten. Besonders wichtig: Beim Web-Search-and-Tool-Selection-Test, der prüft ob ohne Hinweis search statt fetch gewählt wird, traf es die Werkzeugwahl sauber. Das zeigt echte Werkzeugintelligenz und nicht nur starres Fetch-first-Verhalten. Beim URL-Construction-and-Fetch-Test, der die präzise Ableitung einer Ziel-URL misst, bleibt es brauchbar, aber weniger deterministisch. Für bekannte Zielstrukturen reicht das oft. Für Pipelines mit harter URL-Präzision sollte man Guardrails oder Validierung davor setzen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. P2 59.17 ist für produktive Tool-Pipelines der kritische Wert, weil hier nicht der Call, sondern die Übergabe in verwertbare Antwortform scheitert. Positiv sind HTTP Fetch & Extract sowie Tool Failure Handling (404) mit jeweils 80. Schwach sind aber EU License Research mit 40 und Web Search & Tool Selection mit 35. Das Muster ist klar: Es findet die Quelle oft, verdichtet sie aber nicht stabil genug in präzise, belastbare Aussagen.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau diesen Fehler prüfen soll, halluziniert es nicht und der Verifikationsstatus ist sauber. Das ist ein wichtiges Vertrauenssignal. Gleichzeitig ist global ein Halluzinationsereignis erkannt worden. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Wenn ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, untergräbt es die gesamte Tool-Infrastruktur.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei fehlgeschlagenem Tool-Aufruf misst, reagiert GLM 5.1 produktionsgerecht. Es kommuniziert den Fehler offen und erfindet keinen Seiteninhalt. Genau dieses Verhalten ist für Betriebspipelines akzeptabel, weil Orchestrierung und Fallbacks darauf aufsetzen können.

Betriebsprofil

Call 1: 9.61s. Call 2: 41.74s. MCP-Latenz: 0.77s. Total: 312.72s. Klar langsam. Kosten pro Run: 0.014060. Günstig bis moderat, aber die Laufzeit steht nicht im Verhältnis zu einer nur mittleren Syntheseleistung.

Fazit & Empfehlung

Geeignet für MCP-Pipelines, in denen Tool-Auswahl, Web-Recherche und transparente Fehlerbehandlung wichtiger sind als die finale sprachliche Verdichtung. Dazu zählen Recherche-Vorstufen, Routing, Source Collection und Human-in-the-Loop-Workflows. Nicht geeignet für Compliance, regulatorische Zusammenfassungen, Executive Briefs oder andere Endpunkte, in denen die Antwort selbst als verlässliches Arbeitsprodukt gelten muss. Wenn Sie es einsetzen, dann mit strikter Output-Prüfung und bevorzugt als Tool-Operator, nicht als letzte Syntheseschicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.