Grok 4 (Non-Reasoning)

Grok 4 (Non-Reasoning) ist die Standard-Variante der Grok-4-Generation von xAI ohne aktives Chain-of-Thought, ausgelegt auf schnelle direkte Antworten. Das Modell arbeitet mit einem Kontextfenster von einer Million Tokens, ist ausschliesslich über die xAI-API verfügbar und richtet sich an Konversations-und Textaufgaben ohne explizite Reasoning-Schritte.

xAI Version 4.20-0309 Kommerzielle Nutzung erlaubt MoE 1000 K Context 01/2025 $1.25 / $2.5 per 1M

Proprietär
Frontier
API
Text
Real-Time

Sovereign Risk: MEDIUM xAI ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Da die Gewichte proprietär sind, besteht kein Risiko durch die Verteilung der Gewichte selbst.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	95	15	47
HTTP Fetch & Extract	75	35	55
Tool Failure Handling (404)	35	60	43.8
Web Search & Tool Selection	95	15	59
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	95	15	55

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

43.8

Web Search & Tool Selection

URL Construction & Fetch

Multilingual Search & Synthesis

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 4.31; First Request

MCP: 2.03; Protocol Latency

Synthesis: 3.86; Response Generation

Total: 61.19; Sum of All Phases

Token: 16087; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Calls überwiegend valide sind und die Tool-Ausführung belastbar wirkt, das Modell aber nachweislich Tool-Ergebnisse mit erfundenem Wissen überlagert und damit für vertrauenskritische Pipelines ausfällt.

Tool-Execution-Profil

Grok 4 (Non-Reasoning) zeigt eine klare operative Stärke in der Werkzeugnutzung. Die Tool-Calls sind valide, MCP-konform und die Ausführungsseite ist mit P1 82.50 solide. Besonders wichtig: Beim Web-Search-and-Tool-Selection-Test, der prüft, ob ohne Hinweis web_search statt fetch gewählt wird, erkennt das Modell den nötigen Werkzeugtyp sehr sicher. Das spricht gegen reines Schema-Folgen und für echte Tool-Selection-Kompetenz. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und anschließendes Fetch misst, arbeitet es ebenfalls brauchbar, aber weniger präzise. Das Muster ist konsistent: Es versteht, wann Suche nötig ist, ist aber bei der direkten Konstruktion konkreter Endpunkte nicht deterministisch genug.

Der erforderliche Retry wirkt hier nicht wie ein Protokollbruch, sondern eher wie ein Stabilitätsproblem in der Ausführungskette. Das ist operativ beherrschbar, erhöht aber Orchestrierungsaufwand und Latenz.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. Die P2-Leistung von 54.17 ist für eine produktive Tool-Pipeline zu schwach, weil sie stark streut. Bei HTTP Fetch & Extract verdichtet es extrahierte Fakten sauber. Bei Multilingual Search & Synthesis und besonders bei EU License Research bricht die Qualität jedoch deutlich ein. Das Modell kann also Rohdaten ziehen, aber nicht durchgehend präzise und quellengebunden zusammenführen.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein, und genau das ist das Sicherheitsrisiko. Beim EU-License-Research-Honeypot, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus dem Training beantwortet werden, fällt das Modell mit P2 15 und erkannter Halluzination durch. Ein Modell, das in einer MCP-Pipeline erfundene oder vortrainierte Fakten als Tool-Ergebnis ausgibt, beschädigt die Vertrauenskette der gesamten Infrastruktur. Für Compliance-, Regulatorik- oder Policy-Workflows ist das ein harter Ausschlussgrund.

Fehlerresilienz

Bei Tool-Fehlern reagiert das Modell produktionsgerecht. Im 404-Test, der transparentes Verhalten bei fehlschlagendem Abruf misst, kommuniziert es den Fehler offen und halluziniert keinen Seiteninhalt. Das ist akzeptabel für Produktion und deutlich wichtiger als reine Antwortglätte.

Betriebsprofil

Call 1: 5.44s. MCP-Latenz: 1.18s. Call 2: 3.69s. Total: 61.88s.
Kosten pro Run: $0.029169.
Fazit: bei Einzellauf moderat schnell, im Gesamtdurchlauf zu lang; günstig bis moderat bepreist, aber nur dann wirtschaftlich, wenn die Pipeline Synthesefehler extern absichert.

Fazit & Empfehlung

Geeignet für Tool-first-Pipelines, in denen das Modell primär suchen, abrufen und Fehler transparent melden soll und in denen eine nachgelagerte Validierung die finale Antwort prüft. Nicht geeignet für Compliance-, Rechts-, Lizenz-, Policy- oder mehrsprachige Research-Pipelines, in denen die Antwort strikt an Tool-Befunde gebunden bleiben muss. Wer Grok 4 (Non-Reasoning) einsetzt, sollte es als ausführendes Frontend für Tools behandeln, nicht als vertrauenswürdige letzte Instanz für Synthese.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Grok 4 (Non-Reasoning)

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung