Grok 4.3

Grok 4.3 ist das aktuelle Flaggschiff von xAI mit nativem Echtzeit-Zugriff auf die X-Plattform und einem Kontextfenster von einer Million Tokens. Die MoE-Architektur erlaubt effiziente Inferenz bei agentischen Routineaufgaben, ist aber bei komplexem Software-Engineering spezialisierten Modellen unterlegen. Verfügbar ausschliesslich über die xAI-API zu einem Preis von 1,25 US-Dollar pro Million Input- und 2,50 US-Dollar pro Million Output-Tokens.

xAI Version 4.3 Kommerzielle Nutzung erlaubt MoE 1000 K Context 03/2026 $1.25 / $2.5 per 1M

  • Proprietär
  • Frontier
  • API
  • Text
  • Vision
  • Real-Time

Sovereign Risk: MEDIUM xAI ist ein US-Unternehmen, das dem CLOUD Act unterliegt. Da die Gewichte proprietär sind, besteht kein Risiko durch die Verteilung der Gewichte selbst.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.74
First Request
MCP
2.15
Protocol Latency
Synthesis
5.97
Response Generation
Total
65.14
Sum of All Phases
Token
9504
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am

Deployment-Urteil

Bedingt deploy, weil Grok 4.3 valide Tool-Calls liefert und nicht halluziniert, aber die Synthesetreue für produktionsnahe Tool-Pipelines zu unzuverlässig bleibt.

Tool-Execution-Profil

Bei der Tool-Ausführung arbeitet das Modell grundsätzlich brauchbar. Tool-Call valide: true und Retry war nicht erforderlich. Das spricht für saubere MCP-Konformität und gegen Formatprobleme auf Protokollebene. Der P1-Wert von 83.33 zeigt ein stabiles Operieren der Werkzeuge, nicht aber präzise Orchestrierung auf Frontier-Niveau.

Bei der Werkzeugwahl wirkt Grok 4.3 eher regelgeleitet als wirklich selektiv. Beim Web-Search-&-Tool-Selection-Test, der ohne expliziten Hinweis zwischen Suche und Fetch unterscheiden soll, erreicht es solide Ausführung, aber keine klare Stärke. Beim URL-Construction-Test, der die korrekte Ziel-URL aus Eigenwissen ableiten und dann fetch ausführen soll, bleibt das Bild ähnlich. Beide Ergebnisse auf demselben Niveau deuten darauf hin, dass das Modell Tools verlässlich benutzt, aber nicht immer den informationsökonomisch besten Pfad erkennt.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Der P2-Wert von 43.33 ist der eigentliche Bremsklotz dieses Modells. In HTTP Fetch & Extract und Multilingual Search & Synthesis liefert es noch verwertbare Verdichtung. In mehreren anderen Aufgaben kippt es aber in flache oder unvollständige Zusammenfassungen. Für Pipelines, in denen Tool-Ergebnisse nur weitergereicht oder leicht normalisiert werden, ist das tolerierbar. Für Compliance, Research oder entscheidungsrelevante Executive Summaries ist es zu schwach.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau dies bei aktuellen Lizenzrestriktionen prüft, halluziniert es nicht. Das ist das wichtige Vertrauenssignal. Gleichzeitig ist P2 dort mit 20 sehr niedrig und der Content-Verification-State B2 zeigt: Es bleibt formal auf dem sicheren Pfad, verarbeitet die beschafften Inhalte aber nicht mit der nötigen Genauigkeit. Das ist kein Sicherheitsbruch, aber ein Verifikationsrisiko.

Fehlerresilienz

Im 404-Test, der transparente Reaktion auf einen fehlgeschlagenen Tool-Call statt erfundenem Seiteninhalt prüft, bleibt das Modell sauber. Es halluziniert trotz Fehler nicht. P2=40 heißt allerdings auch hier: Die Fehlerkommunikation ist akzeptabel, aber nicht besonders präzise oder nutzerführend. Für Produktion ist das tragbar, solange nachgelagerte Systeme Fehlerzustände selbst behandeln.

Betriebsprofil

Total 52.75s pro Run. MCP-Latenz 0.92s. Modell-Calls 2.70s und 5.17s. Insgesamt langsam für die erreichte Synthesequalität. Kosten pro Run: 0.011412 USD. Günstig bis moderat, aber das Preis-Leistungs-Verhältnis bleibt wegen der schwachen Verdichtung nur durchschnittlich.

Fazit & Empfehlung

Geeignet für Tool-Pipelines mit klaren Guardrails, in denen das Modell suchen, abrufen und Ergebnisse vorsichtig zusammenfassen soll. Gut einsetzbar für einfache Retrieval-, Monitoring- und mehrsprachige Rechercheflüsse mit menschlicher oder regelbasierter Endkontrolle. Nicht geeignet als letzte Syntheseinstanz für Compliance, Lizenzbewertung, Policy-Interpretation oder andere Pfade, in denen die Zusammenfassung selbst die Entscheidung trägt.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.