Grok 4.3

Grok 4.3

Grok 4.3 ist das aktuelle Flaggschiff von xAI mit nativem Echtzeit-Zugriff auf die X-Plattform und einem Kontextfenster von einer Million Tokens. Die MoE-Architektur erlaubt effiziente Inferenz bei agentischen Routineaufgaben, ist aber bei komplexem Software-Engineering spezialisierten Modellen unterlegen. Verfügbar ausschliesslich über die xAI-API zu einem Preis von 1,25 US-Dollar pro Million Input- und 2,50 US-Dollar pro Million Output-Tokens.

xAI Version 4.3 Kommerzielle Nutzung erlaubt MoE 1000 K Context 03/2026 $1.25 / $2.5 per 1M

Proprietär
Frontier
API
Text
Vision
Real-Time

Sovereign Risk: MEDIUM xAI ist ein US-Unternehmen, das dem CLOUD Act unterliegt. Da die Gewichte proprietär sind, besteht kein Risiko durch die Verteilung der Gewichte selbst.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	20	52
HTTP Fetch & Extract	80	35	57.5
Tool Failure Handling (404)	40	20	30
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

57.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.74; First Request

MCP: 2.15; Protocol Latency

Synthesis: 5.97; Response Generation

Total: 65.14; Sum of All Phases

Token: 9504; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Grok 4.3 valide Tool-Calls liefert und nicht halluziniert, aber die Synthesetreue für produktionsnahe Tool-Pipelines zu unzuverlässig bleibt.

Tool-Execution-Profil

Bei der Tool-Ausführung arbeitet das Modell grundsätzlich brauchbar. Tool-Call valide: true und Retry war nicht erforderlich. Das spricht für saubere MCP-Konformität und gegen Formatprobleme auf Protokollebene. Der P1-Wert von 83.33 zeigt ein stabiles Operieren der Werkzeuge, nicht aber präzise Orchestrierung auf Frontier-Niveau.

Bei der Werkzeugwahl wirkt Grok 4.3 eher regelgeleitet als wirklich selektiv. Beim Web-Search-&-Tool-Selection-Test, der ohne expliziten Hinweis zwischen Suche und Fetch unterscheiden soll, erreicht es solide Ausführung, aber keine klare Stärke. Beim URL-Construction-Test, der die korrekte Ziel-URL aus Eigenwissen ableiten und dann fetch ausführen soll, bleibt das Bild ähnlich. Beide Ergebnisse auf demselben Niveau deuten darauf hin, dass das Modell Tools verlässlich benutzt, aber nicht immer den informationsökonomisch besten Pfad erkennt.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Der P2-Wert von 43.33 ist der eigentliche Bremsklotz dieses Modells. In HTTP Fetch & Extract und Multilingual Search & Synthesis liefert es noch verwertbare Verdichtung. In mehreren anderen Aufgaben kippt es aber in flache oder unvollständige Zusammenfassungen. Für Pipelines, in denen Tool-Ergebnisse nur weitergereicht oder leicht normalisiert werden, ist das tolerierbar. Für Compliance, Research oder entscheidungsrelevante Executive Summaries ist es zu schwach.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau dies bei aktuellen Lizenzrestriktionen prüft, halluziniert es nicht. Das ist das wichtige Vertrauenssignal. Gleichzeitig ist P2 dort mit 20 sehr niedrig und der Content-Verification-State B2 zeigt: Es bleibt formal auf dem sicheren Pfad, verarbeitet die beschafften Inhalte aber nicht mit der nötigen Genauigkeit. Das ist kein Sicherheitsbruch, aber ein Verifikationsrisiko.

Fehlerresilienz

Im 404-Test, der transparente Reaktion auf einen fehlgeschlagenen Tool-Call statt erfundenem Seiteninhalt prüft, bleibt das Modell sauber. Es halluziniert trotz Fehler nicht. P2=40 heißt allerdings auch hier: Die Fehlerkommunikation ist akzeptabel, aber nicht besonders präzise oder nutzerführend. Für Produktion ist das tragbar, solange nachgelagerte Systeme Fehlerzustände selbst behandeln.

Betriebsprofil

Total 52.75s pro Run. MCP-Latenz 0.92s. Modell-Calls 2.70s und 5.17s. Insgesamt langsam für die erreichte Synthesequalität. Kosten pro Run: 0.011412 USD. Günstig bis moderat, aber das Preis-Leistungs-Verhältnis bleibt wegen der schwachen Verdichtung nur durchschnittlich.

Fazit & Empfehlung

Geeignet für Tool-Pipelines mit klaren Guardrails, in denen das Modell suchen, abrufen und Ergebnisse vorsichtig zusammenfassen soll. Gut einsetzbar für einfache Retrieval-, Monitoring- und mehrsprachige Rechercheflüsse mit menschlicher oder regelbasierter Endkontrolle. Nicht geeignet als letzte Syntheseinstanz für Compliance, Lizenzbewertung, Policy-Interpretation oder andere Pfade, in denen die Zusammenfassung selbst die Entscheidung trägt.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung