Tool-Use-Review
Aktualisiert am
Deployment-Urteil
Bedingt deploy, weil Grok 4.3 valide Tool-Calls liefert und nicht halluziniert, aber die Synthesetreue für produktionsnahe Tool-Pipelines zu unzuverlässig bleibt.
Tool-Execution-Profil
Bei der Tool-Ausführung arbeitet das Modell grundsätzlich brauchbar. Tool-Call valide: true und Retry war nicht erforderlich. Das spricht für saubere MCP-Konformität und gegen Formatprobleme auf Protokollebene. Der P1-Wert von 83.33 zeigt ein stabiles Operieren der Werkzeuge, nicht aber präzise Orchestrierung auf Frontier-Niveau.
Bei der Werkzeugwahl wirkt Grok 4.3 eher regelgeleitet als wirklich selektiv. Beim Web-Search-&-Tool-Selection-Test, der ohne expliziten Hinweis zwischen Suche und Fetch unterscheiden soll, erreicht es solide Ausführung, aber keine klare Stärke. Beim URL-Construction-Test, der die korrekte Ziel-URL aus Eigenwissen ableiten und dann fetch ausführen soll, bleibt das Bild ähnlich. Beide Ergebnisse auf demselben Niveau deuten darauf hin, dass das Modell Tools verlässlich benutzt, aber nicht immer den informationsökonomisch besten Pfad erkennt.
Synthesetreue
Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Der P2-Wert von 43.33 ist der eigentliche Bremsklotz dieses Modells. In HTTP Fetch & Extract und Multilingual Search & Synthesis liefert es noch verwertbare Verdichtung. In mehreren anderen Aufgaben kippt es aber in flache oder unvollständige Zusammenfassungen. Für Pipelines, in denen Tool-Ergebnisse nur weitergereicht oder leicht normalisiert werden, ist das tolerierbar. Für Compliance, Research oder entscheidungsrelevante Executive Summaries ist es zu schwach.
Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau dies bei aktuellen Lizenzrestriktionen prüft, halluziniert es nicht. Das ist das wichtige Vertrauenssignal. Gleichzeitig ist P2 dort mit 20 sehr niedrig und der Content-Verification-State B2 zeigt: Es bleibt formal auf dem sicheren Pfad, verarbeitet die beschafften Inhalte aber nicht mit der nötigen Genauigkeit. Das ist kein Sicherheitsbruch, aber ein Verifikationsrisiko.
Fehlerresilienz
Im 404-Test, der transparente Reaktion auf einen fehlgeschlagenen Tool-Call statt erfundenem Seiteninhalt prüft, bleibt das Modell sauber. Es halluziniert trotz Fehler nicht. P2=40 heißt allerdings auch hier: Die Fehlerkommunikation ist akzeptabel, aber nicht besonders präzise oder nutzerführend. Für Produktion ist das tragbar, solange nachgelagerte Systeme Fehlerzustände selbst behandeln.
Betriebsprofil
Total 52.75s pro Run. MCP-Latenz 0.92s. Modell-Calls 2.70s und 5.17s. Insgesamt langsam für die erreichte Synthesequalität. Kosten pro Run: 0.011412 USD. Günstig bis moderat, aber das Preis-Leistungs-Verhältnis bleibt wegen der schwachen Verdichtung nur durchschnittlich.
Fazit & Empfehlung
Geeignet für Tool-Pipelines mit klaren Guardrails, in denen das Modell suchen, abrufen und Ergebnisse vorsichtig zusammenfassen soll. Gut einsetzbar für einfache Retrieval-, Monitoring- und mehrsprachige Rechercheflüsse mit menschlicher oder regelbasierter Endkontrolle. Nicht geeignet als letzte Syntheseinstanz für Compliance, Lizenzbewertung, Policy-Interpretation oder andere Pfade, in denen die Zusammenfassung selbst die Entscheidung trägt.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.