GLM-5 (2026-02-11)

GLM-5 ist das Flaggschiff-Modell von Z.AI mit 744 Milliarden Gesamt- und 40 Milliarden aktiven Parametern in einer 256-Experten-MoE-Architektur, optimiert für komplexe System-Design-Aufgaben und langlaufende Agent-Workflows. Das Kontextfenster umfasst 202.000 Tokens, die Gewichte sind unter MIT-Lizenz verfügbar.

Zhipu AI Version 5 Kommerzielle Nutzung erlaubt MoE 744 B (40 B aktiv) 202 K Context 12/2025 $0.6 / $1.92 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Batch

Sovereign Risk: HIGH Z.AI (formerly Zhipu AI) ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten. Bei rein lokaler Inferenz mit den MIT-lizenzierten Gewichten entfällt das Cloud-Act-äquivalente Risiko.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
3.29
First Request
MCP
0.82
Protocol Latency
Synthesis
43.93
Response Generation
Total
288.28
Sum of All Phases
Token
12108
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark ist, die Tool-Calls aber nicht durchgängig valide sind und die Synthesequalität für produktionskritische Auswertung zu inkonsistent bleibt.

Tool-Execution-Profil

GLM-5 zeigt echte Werkzeugintelligenz. Beim Web Search & Tool Selection-Test erkennt es ohne expliziten Hinweis, dass erst Suche statt direktem Fetch nötig ist, und handelt damit agentisch statt schematisch. Das ist ein starkes Signal für MCP-gestützte Pipelines mit unklarer Informationslage. Auch bei EU License Research arbeitet es sauber tool-first.

Schwächer ist die Präzision im Ausführen. Beim URL-Construction-Test, der prüft ob das Modell die Ziel-URL aus eigenem Wissen ableitet und dann korrekt fetched, ist die Richtung richtig, aber nicht deterministisch genug für harte Produktionspfade. Dazu passt der Befund, dass der Tool-Call insgesamt nicht durchgängig valide war. Das wirkt hier eher wie ein Ausführungs- und Formatproblem als wie ein Planungsdefizit. Retry war nicht nötig, also kein schwerer Protokollbruch, aber auch kein blind vertrauenswürdiger Call-Emitter.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur begrenzt zuverlässig. P2 von 60 zeigt sich konkret in den schwachen Verdichtungen bei EU License Research und Multilingual Search & Synthesis. Das Modell findet die Informationen oft, komprimiert sie aber nicht mit der Präzision, die Architekten für Compliance-, Policy- oder mehrsprachige Recherchepfade brauchen. Für einfache Extraktion ist es brauchbar. Für belastbare Ergebnisaufschreibung braucht es Nachkontrolle.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Überwiegend ja, und das ist der wichtigere Vertrauensbefund. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus dem Training beantwortet werden, halluziniert es nicht. Der P2-Wert von 40 ist daher kein Sicherheitsalarm, sondern ein Verdichtungsproblem: Es bleibt näher an den Quellen, als es sie gut zusammenfasst.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparenten Umgang mit Tool-Fehlern statt erfundenem Ersatzinhalt misst, kommuniziert GLM-5 den Fehlschlag sauber und halluziniert keinen Seiteninhalt. Genau dieses Verhalten hält eine Tool-Pipeline vertrauensfähig, auch wenn ein externer Schritt ausfällt.

Betriebsprofil

Call 1: 3.29s. MCP-Latenz: 0.82s. Call 2: 43.93s. Total: 288.28s. Deutlich langsam, mit ausgeprägter Tail-Latenz. Kosten/Run: local. Preis laut Modellprofil niedrig, die Zeitkosten pro Run sind im Verhältnis zur gezeigten Syntheseleistung hoch.

Fazit & Empfehlung

Geeignet für agentische Recherche- und Orchestrierungs-Pipelines, in denen Tool-Wahl, Suchsteuerung und transparenter Fehlerumgang wichtiger sind als perfekte Endverdichtung. Nicht geeignet als unbeaufsichtigter letzter Synthese-Layer für Compliance, Policy oder andere textkritische Entscheidungsstrecken. Wenn Sie GLM-5 einsetzen, dann als planendes und suchendes Modell mit nachgelagerter Validierung oder mit einem zweiten Modell für die abschließende Ergebnisverdichtung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.