GLM-4.7

GLM-4.7

GLM-4.7 ist das Flagship-Modell von Zhipu AI mit 355 Milliarden Gesamt- und 32 Milliarden aktiven Parametern in MoE-Architektur, optimiert für agentisches Coding, Reasoning und bilinguale Aufgaben in Chinesisch und Englisch. Das Modell unterstützt schaltbares Thinking-System und ist als Open-Weights-Variante lokal oder über Cloud-Schnittstellen einsetzbar.

Zhipu AI Version 4.7 Kommerzielle Nutzung erlaubt MoE 355 B (32 B aktiv) 128 K Context 12/2025 $0.38 / $1.74 per 1M

Restricted Weights
Frontier
OR
Text
Instruction-Tuned
Batch

Sovereign Risk: HIGH Zhipu AI / Z.AI ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Das BSI hat im Februar 2025 explizit vor der Nutzung chinesischer KI-Cloud-Dienste gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); diese Risikoeinschätzung gilt analog für alle chinesischen Cloud-KI-Anbieter, die Nutzerdaten auf chinesischen Servern verarbeiten. Bei rein lokaler Inferenz entfällt das Cloud-Act-äquivalente Risiko.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	80	20	44
HTTP Fetch & Extract	80	35	57.5
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	80	20	50

Name

Combined

EU License Research

HTTP Fetch & Extract

57.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 12.9; First Request

MCP: 1.44; Protocol Latency

Synthesis: 21.16; Response Generation

Total: 212.95; Sum of All Phases

Token: 6671; Input + Output

Cost: $0.0043; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil GLM-4.7 valide Tool-Calls erzeugt und im MCP-Ablauf stabil wirkt, aber die Synthesetreue mit Combined 62.75 und erkannten Halluzinationen nicht ausreicht, um ihm unbeaufsichtigt vertrauenskritische Tool-Pipelines zu übergeben.

Tool-Execution-Profil

Die operative Tool-Seite ist die klare Stärke. Mit P1 83.33 produziert das Modell valide Calls und zeigt kein Protokollproblem; ein Retry war nicht nötig. Beim Web-Search-and-Tool-Selection-Test, der prüft ob ohne Hinweis search statt fetch gewählt wird, erreicht es P1 100. Das spricht für echte Werkzeugwahl statt bloßes Schema-Folgen. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen misst, fällt es auf P1 80 zurück. Es kann also bekannte Muster brauchbar in Fetch-Aufrufe übersetzen, arbeitet dabei aber nicht deterministisch genug für fragile Endpunkte. Für MCP-Orchestrierung ist das brauchbar, für strikt URL-sensitive Automationen nur mit Guardrails.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach bis uneinheitlich. P2 42.50 ist der eigentliche Engpass. Besonders kritisch sind EU License Research mit P2 20 und Multilingual Search & Synthesis mit P2 20. Das Modell ruft Informationen ab, verliert aber bei Verdichtung, Priorisierung und präziser Rückbindung an den Quellinhalt an Zuverlässigkeit. Für Produktivsysteme heißt das: Die Beschaffung funktioniert öfter als die belastbare Auswertung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, wurde keine Halluzination markiert, aber der Content-Verification-State B1 und P2 20 zeigen nur schwache inhaltliche Bindung an die abgerufenen Quellen. Gleichzeitig ist global Halluzination erkannt: true ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Ergebnis einer Tool-Pipeline ausgibt, sinkt das Vertrauen in die gesamte Infrastruktur, auch wenn die Tool-Aufrufe formal korrekt waren.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei Tool-Fehlschlägen prüft, bleibt GLM-4.7 akzeptabel. P2 60 ist kein starkes Ergebnis, aber es halluziniert keinen Seiteninhalt trotz Fehler. Das ist für Produktion entscheidend. Ein fehlgeschlagener Abruf wird eher als Fehler behandelt als mit erfundenem Ersatz kaschiert.

Betriebsprofil

12.90s und 21.16s Einzelaufrufe, 1.44s MCP-Latenz, 212.95s total. Langsam für die gezeigte Gesamtleistung. 0.004277 USD pro Run. Günstig im Preis, aber ineffizient in Zeit pro nutzbarer Antwortqualität.

Fazit & Empfehlung

Geeignet für überwachte Recherche- und Tooling-Pipelines, in denen ein nachgelagerter Verifier oder ein regelbasierter Post-Processor die Antwort gegen Tool-Outputs prüft. Nicht geeignet für Compliance, Lizenzprüfung, mehrsprachige Wissenssynthese oder andere Pfade, in denen die verbale Verdichtung selbst das Endprodukt ist. Wenn Sie GLM-4.7 einsetzen, dann als Tool-bedienenden Beschaffer mit enger Quellbindungskontrolle, nicht als letzte Instanz für inhaltliche Aussagen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung