GLM-5 (2026-02-11)

GLM-5 ist das Flaggschiff-Modell von Z.AI mit 744 Milliarden Gesamt- und 40 Milliarden aktiven Parametern in einer 256-Experten-MoE-Architektur, optimiert für komplexe System-Design-Aufgaben und langlaufende Agent-Workflows. Das Kontextfenster umfasst 202.000 Tokens, die Gewichte sind unter MIT-Lizenz verfügbar.

Zhipu AI Version 5 Kommerzielle Nutzung erlaubt MoE 744 B (40 B aktiv) 202 K Context 12/2025 $0.6 / $1.92 per 1M

Open Weights
Frontier
OR
Text
Instruction-Tuned
Agentic Orchestrator
Batch

Sovereign Risk: HIGH Z.AI (formerly Zhipu AI) ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten. Bei rein lokaler Inferenz mit den MIT-lizenzierten Gewichten entfällt das Cloud-Act-äquivalente Risiko.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 3.29; First Request

MCP: 0.82; Protocol Latency

Synthesis: 43.93; Response Generation

Total: 288.28; Sum of All Phases

Token: 12108; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark ist, die Tool-Calls aber nicht durchgängig valide sind und die Synthesequalität für produktionskritische Auswertung zu inkonsistent bleibt.

Tool-Execution-Profil

GLM-5 zeigt echte Werkzeugintelligenz. Beim Web Search & Tool Selection-Test erkennt es ohne expliziten Hinweis, dass erst Suche statt direktem Fetch nötig ist, und handelt damit agentisch statt schematisch. Das ist ein starkes Signal für MCP-gestützte Pipelines mit unklarer Informationslage. Auch bei EU License Research arbeitet es sauber tool-first.

Schwächer ist die Präzision im Ausführen. Beim URL-Construction-Test, der prüft ob das Modell die Ziel-URL aus eigenem Wissen ableitet und dann korrekt fetched, ist die Richtung richtig, aber nicht deterministisch genug für harte Produktionspfade. Dazu passt der Befund, dass der Tool-Call insgesamt nicht durchgängig valide war. Das wirkt hier eher wie ein Ausführungs- und Formatproblem als wie ein Planungsdefizit. Retry war nicht nötig, also kein schwerer Protokollbruch, aber auch kein blind vertrauenswürdiger Call-Emitter.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur begrenzt zuverlässig. P2 von 60 zeigt sich konkret in den schwachen Verdichtungen bei EU License Research und Multilingual Search & Synthesis. Das Modell findet die Informationen oft, komprimiert sie aber nicht mit der Präzision, die Architekten für Compliance-, Policy- oder mehrsprachige Recherchepfade brauchen. Für einfache Extraktion ist es brauchbar. Für belastbare Ergebnisaufschreibung braucht es Nachkontrolle.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Überwiegend ja, und das ist der wichtigere Vertrauensbefund. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus dem Training beantwortet werden, halluziniert es nicht. Der P2-Wert von 40 ist daher kein Sicherheitsalarm, sondern ein Verdichtungsproblem: Es bleibt näher an den Quellen, als es sie gut zusammenfasst.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparenten Umgang mit Tool-Fehlern statt erfundenem Ersatzinhalt misst, kommuniziert GLM-5 den Fehlschlag sauber und halluziniert keinen Seiteninhalt. Genau dieses Verhalten hält eine Tool-Pipeline vertrauensfähig, auch wenn ein externer Schritt ausfällt.

Betriebsprofil

Call 1: 3.29s. MCP-Latenz: 0.82s. Call 2: 43.93s. Total: 288.28s. Deutlich langsam, mit ausgeprägter Tail-Latenz. Kosten/Run: local. Preis laut Modellprofil niedrig, die Zeitkosten pro Run sind im Verhältnis zur gezeigten Syntheseleistung hoch.

Fazit & Empfehlung

Geeignet für agentische Recherche- und Orchestrierungs-Pipelines, in denen Tool-Wahl, Suchsteuerung und transparenter Fehlerumgang wichtiger sind als perfekte Endverdichtung. Nicht geeignet als unbeaufsichtigter letzter Synthese-Layer für Compliance, Policy oder andere textkritische Entscheidungsstrecken. Wenn Sie GLM-5 einsetzen, dann als planendes und suchendes Modell mit nachgelagerter Validierung oder mit einem zweiten Modell für die abschließende Ergebnisverdichtung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

GLM-5 (2026-02-11)

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung