Grok 4 Reasoning (März 2025) · LLM Model Review

Mit einem Gesamtscore von 73.83% tritt grok-4.20-0309-reasoning als kommerzielles Cloud-Modell der Klasse Reasoning / Deep Thinking, Frontier und Dense an. Der Speed-Profile-Badge lautet Interactive DevOps Expert. Das ist ein Versprechen auf brauchbare Interaktivität bei technisch anspruchsvollen Aufgaben, nicht auf Sprinttempo. Genau so benimmt sich dieses Modell auch: nachdenklich, meist sauber, mit spürbarer Stärke in Struktur und Analyse, aber nicht mit jener logischen Schärfe, die ein echtes Thinking-Flag automatisch adeln würde. Sovereign Risk: MEDIUM — xAI ist ein US-Unternehmen unter dem CLOUD Act; Daten werden laut vorliegenden Angaben in den USA verarbeitet.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	56.54 s	Akzeptabel	Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar.

Für ein Frontier-Cloud-Modell ist das die Art von Zuverlässigkeit, die man im Alltag tatsächlich schätzt. Keine Timeouts über 43 Tests hinweg bedeuten: kein API-Lotto, keine Retry-Orgie, keine peinlichen Leerräume in Agenten-Workflows. Die Kehrseite ist die Streuung am langen Ende. In fünf Prozent aller Anfragen wartete der Nutzer knapp eine Minute. Das ist nicht dramatisch, aber es bremst den Takt. Die offiziell ausgewiesene Generierungsgeschwindigkeit liegt bei 18.62 Tokens pro Sekunde. Zusammen mit dem Badge „Interactive DevOps Expert“ heißt das: für Dialog und Analyse brauchbar, für hochfrequente Tool-Ketten eher ein ruhiger Arbeiter als ein Rennwagen.

Architektur und Charakter: Thinking ohne Denkpose

Die vorab vergebene Kategorie Thinking passt grundsätzlich. grok-4.20-0309-reasoning antwortet nicht wie ein knapp getrimmtes Instruct-Modell, sondern wie ein System, das erst sortiert und dann liefert. Seine Reasoning- und Metacog-Ausgaben bleiben mit durchschnittlich 578 Tokens sogar unter dem Fleet-Median von 883 Tokens. Das ist bemerkenswert, denn viele Denkmodelle verwechseln Tiefe mit Textmasse. Dieses hier tut das nicht.

Gerade deshalb fällt aber eine Schwäche stärker auf: Die Antworten sind häufig korrekt und ordentlich aufgebaut, wirken jedoch in ihrer didaktischen Ausarbeitung nicht so tief, wie das Etikett „Deep Thinking“ erwarten lässt. In einer klassischen Logikaufgabe mit zwei Wächtern liefert das Modell die richtige Lösung, erklärt den Mechanismus stimmig und nutzt die angeforderten <thought>-Tags sauber. Was fehlt, sind die zweite und dritte Schicht: Visualisierung, Gegenbeispiele, elegante Verifikation. Es denkt. Es denkt nur selten glänzend.

Das ist für ein Dense-Frontier-Modell relevant. Bei dieser Klasse gelten keine Welpenschutzregeln. Hier misst man nicht nur, ob ein Ergebnis stimmt, sondern ob es in schwierigen Aufgaben robust, präzise und lehrbar aufbereitet ist. grok-4.20-0309-reasoning besteht diese Prüfung oft ordentlich. Herausragend besteht es sie nicht.

Code Quality und Security: technisch ernstzunehmen, aber nicht kompromisslos

Im Modul Code Quality erreicht das Modell 78.4 Punkte. Das ist kein Blendwerk, sondern handfeste Arbeit. Der qualitative Security-Audit zeigt ein Modell, das Schwachstellen sauber benennt, richtige Schweregrade vergibt und praktikable Fixes formuliert. Besonders positiv: Das Tabellenformat sitzt. Die Antwort bleibt auf Deutsch, strukturiert die Funde klar und liefert zu den meisten Einträgen konkrete technische Abhilfen statt bloßer Schlagworte.

Im Detail fehlt jedoch die letzte Konsequenz. In einem Audit wurden 16 von 19 Vulnerabilities identifiziert. Das ist eine starke Abdeckung, aber für einen Prompt, der explizit „alle“ Schwachstellen fordert, eben nicht vollständig. Es fehlen unter anderem Session Fixation, Header Injection nach Output sowie hartkodierte Secrets und Datenbank-Credentials. Genau dort trennt sich „guter Security-Reviewer“ von „produktionsreifem Security-Hammer“. Wer in echten Audits die letzten 15 Prozent übersieht, übersieht oft nicht Kleinkram, sondern den Teil, der später teuer wird.

Auch die Erklärungstiefe bleibt etwas unter Vollformat. Das Modell erkennt etwa Type Juggling, SQL Injection, IDOR, Path Traversal oder schwache Reset-Tokens korrekt, beschreibt aber die Angriffsketten weniger plastisch als die Referenz. Es sagt, wo es brennt. Es zeigt seltener, wie das Feuer durchs Gebäude läuft. Für Entwickler ist das noch brauchbar. Für Security-Entscheider fehlt etwas Wucht.

Trotzdem ist das Gesamturteil hier klar positiv. grok-4.20-0309-reasoning ist im technischen Audit kein Blender, sondern ein ernstzunehmendes Werkzeug. Es findet viel, erklärt ausreichend und formatiert sauber. Nur die Vollständigkeit ist nicht so unerbittlich, wie man es bei einem Frontier-Reasoning-Modell gern sähe.

CLI und technische Exekution: erstaunlich stark

Mit 98.33 Punkten im CLI-Benchmark zeigt grok-4.20-0309-reasoning eine seiner überzeugendsten Seiten. Das Modell übersetzt technische Absichten sehr zuverlässig in konkrete Shell- und Admin-Antworten. Für den ausgewiesenen Badge „Interactive DevOps Expert“ ist das mehr als ein Etikett. Hier liegt tatsächlich ein belastbarer Kern.

Das ist auch deshalb wichtig, weil viele Denkmodelle in offenen Analyseaufgaben gut aussehen, aber bei exakten technischen Formaten nervös werden. grok-4.20-0309-reasoning zeigt dieses Problem im CLI-Bereich kaum. Wer ein Cloud-Modell für Terminal-nahe Assistenz sucht, bekommt hier ein System, das nicht nur reflektiert, sondern auch liefert.

Logik und Metakognition: korrekt, aber selten brillant

Im Bereich Logical Reasoning landet das Modell bei 64.18 Punkten. Das ist der vielleicht wichtigste Befund des ganzen Reviews, weil er das Selbstbild des Modells berührt. Für ein als Reasoning / Deep Thinking klassifiziertes Frontier-Modell ist das kein Absturz, aber eben auch kein Machtwort.

Die qualitativen Protokolle zeigen das Muster sehr klar. Das Modell löst die Logikaufgaben oft richtig. Es erklärt den Kernmechanismus stimmig. Es kann naive Ansätze verwerfen und eine brauchbare Schlussfolgerung sauber in Deutsch formulieren. Das Problem liegt nicht in groben Denkfehlern, sondern in der Präsentationstiefe und in der Robustheit unter zusätzlichen Instruktionslagen. Wo andere Spitzenmodelle den Denkweg ausleuchten, bleibt grok-4.20-0309-reasoning eher bei der funktionalen Version.

⚠️ Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 64.18%, was das Niveau in diesem Modul realistisch abbildet. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal. Dieser Abzug ist methodisch gewollt.

Hinzu kommt ein dokumentierter Sprachfehler im Reasoning-Bereich: In einer metakognitiven Aufgabe ignorierte das Modell die explizite Anweisung, auf Deutsch zu antworten, und lieferte Englisch. Das ist kein bloßer Schönheitsfehler. In Workflows mit fester Zielsprache ist so etwas ein direkter Produktivfehler.

Diese beiden Befunde zusammen ergeben ein strukturelles Signal: Unter simultanen Vorgaben aus Sprache, Format und Denktiefe verliert grok-4.20-0309-reasoning zuerst die Instruktionsdisziplin. Für ein Thinking-Modell ist das unangenehm, denn genau dort sollte es kühler bleiben als ein normaler Chat-Allrounder.

Content Transformation: kreativ genug, aber bei Nebenbedingungen nicht sauber genug

Im Modul Content Transformation & Adaption erreicht das Modell 69.96 Punkte. Das ist solide, aber die qualitative Lage ist rauer, als die Zahl zunächst vermuten lässt. Ein positives Beispiel zeigt ein erstaunlich brauchbares Skript für ein kurzes Security-Video: vollständige Zeitmarken, Production Cues, Hook, CTA, Easter Egg, gesprochene Sprache statt Schriftsprache. Das Modell kann also Transformation, und zwar nicht nur formal, sondern durchaus praxisnah.

Der Haken liegt in der Disziplin unter engen Constraints. In einer Aufgabe dieses Moduls ignorierte grok-4.20-0309-reasoning die explizite Sprachanweisung und antwortete auf Englisch, obwohl Deutsch gefordert war. Das ist kein technischer Unfall, sondern ein Instruction-Following-Fehler. In produktiven Redaktions- oder Marketing-Workflows fällt so etwas nicht unter „fast richtig“, sondern unter „muss neu gemacht werden“.

Dazu kommt ein regelbasierter Hard-Constraint-Verstoß: In einer weiteren Content-Aufgabe überschritt das Modell die explizite Vorgabe von 250 Wörtern und lieferte 302 Wörter, also 121% des Limits. Das System verhängte dafür automatisch einen Abzug von 12.40 Punkten, entsprechend 20% der erreichbaren Teilwertung. Die inhaltliche Qualität der Antwort ist damit nebensächlich. Die Strafe greift unabhängig davon. Genau das ist der Sinn harter Constraints: Wer das Wortlimit reißt, hat die Aufgabe verfehlt, auch wenn der Text gut klingt.

Zusammen mit dem Sprachfehler ergibt das ein klares Muster. Das Längenproblem und das Sprachversagen sind kein isolierter Ausreißer, sondern ein Hinweis darauf, dass das Modell bei kombinierten Vorgaben aus Sprache, Länge und Format zuerst die Nebenbedingungen fallen lässt. Das ist in kreativen Modulen oft der wahre Unterschied zwischen „gut schreibend“ und „professionell steuerbar“.

UX Writing und Cultural Intelligence: sprachlich ordentlich, tonlich nicht immer treffsicher

Im UX-Writing-Bereich steht das Modell bei 70.05 Punkten. Das deutet auf solide Textkompetenz hin, aber nicht auf jene feine Präzision, die Microcopy wirklich auszeichnet. Das qualitative Material zeigt ein Modell, das professionell formuliert, inklusive Sprache beherrscht und Aufgaben zuverlässig in brauchbarem Deutsch löst. Es trifft meist den Kern, aber nicht immer den besten Ton.

Ein gutes Beispiel liefert der Bereich Cultural Intelligence mit 78.9 Punkten. Dort entfernt grok-4.20-0309-reasoning toxische Formulierungen wirksam und formuliert inklusive Stellenanzeigen handwerklich sauber um. Gleichzeitig verrät sich ein gewisser Hang zur sprachlichen Übermöblierung: Statt eines wirklich neutralen Begriffs wie „Fachkraft“ wählt das Modell eine m/w/d-artige Schreibweise, die formal korrekt, aber stilistisch weniger elegant ist. Auch der Ton kippt stellenweise vom einladenden Konjunktiv in ein leicht imperatives „Sie sollten“. Das ist nicht falsch. Es ist nur weniger zeitgemäß und weniger fein.

Diese Art von Schwäche zieht sich durch mehrere Schreibaufgaben. grok-4.20-0309-reasoning ist selten sprachlich unbeholfen. Es ist eher ein Modell, das einen guten ersten Entwurf liefert, dem aber in den letzten zehn Prozent die editorische Raffinesse fehlt. Man merkt, dass es schreiben kann. Man merkt auch, dass es keinen geborenen Stilinstinkt hat.

Dokumentation: brauchbar, aber ohne das letzte Maß an Klarheit

Mit 67.72 Punkten in Documentation Quality liefert das Modell ein ordentliches, aber nicht überragendes Ergebnis. Für ein Thinking-Modell ist das fast etwas enttäuschend. Dokumentation ist die natürliche Heimat sauberer Struktur, klarer Herleitung und methodischer Vollständigkeit. Genau dort müsste ein Deep-Thinking-System seine Stärken in Form bringen.

Die Punktzahl legt nahe, dass grok-4.20-0309-reasoning diesen Anspruch nur teilweise erfüllt. Die Antworten sind offenbar nützlich und hinreichend geordnet, aber nicht konsequent auf maximale Verständlichkeit und Verdichtung getrimmt. Das passt zu den anderen Modulen: Das Modell kann analysieren und erklären. Es komprimiert seine Einsichten nur nicht immer in die klarste, didaktisch beste Form.

Token-Effizienz und Kostenbild

Positiv fällt auf, dass sich grok-4.20-0309-reasoning token-ökonomisch verhält. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Im Gegenteil: In Code Quality mit 1863 statt 1899 Tokens und in Documentation Quality mit 2080 statt 2253 Tokens liegt es sogar unter dem Fleet-Median. Selbst in Reasoning und Metacognition bleibt es mit 578 Tokens deutlich unter dem Median von 883.

Für ein kommerzielles Cloud-Modell ist das keine Randnotiz. Die offiziellen Kosten liegen bei 0.0025 US-Dollar pro 1K Tokens, die Benchmark-Ausführung kostete 0.1089 US-Dollar. Das ist für ein Frontier-Reasoning-Modell ausgesprochen vernünftig. grok-4.20-0309-reasoning redet nicht endlos um seine Gedanken herum. Das spart Geld und drückt die Latenz. Dass die Logikleistung trotzdem nicht höher ausfällt, macht die Lage fast ironisch: Dieses Modell ist effizienter als viele Denkmaschinen, aber nicht automatisch klüger.

Datenschutz und Datenhoheit

Für europäische Unternehmen ist die Datenschutzlage nüchtern betrachtet ein echter Einwand. xAI ist ein US-Anbieter mit Sitz in Palo Alto und unterliegt dem US CLOUD Act. Das bedeutet, dass US-Behörden unter bestimmten Voraussetzungen Zugriff auf Daten verlangen können, auch wenn technische oder organisatorische Schutzmaßnahmen bestehen. Laut vorliegenden Provider-Daten werden die Daten in den USA verarbeitet.

Ein öffentlich dokumentierter GDPR DPA ist nicht verfügbar. Für Unternehmen, die DSGVO-konform einkaufen und dokumentieren müssen, ist das kein Detail, sondern ein handfestes Compliance-Hindernis. Die Datenspeicherungsdauer ist mit -1 Tagen angegeben, also nicht verlässlich öffentlich ausgewiesen. Das berechnete Sovereign Risk liegt bei MEDIUM. Die Begründung ist konsistent: US-Jurisdiktion mit CLOUD-Act-Risiko, aber keine chinesische NSL-Bindung und keine offen zugänglichen Modellgewichte. Das Weights-Provenienz-Risiko wird ebenfalls als medium geführt. Für private oder unkritische Nutzung ist das handhabbar. Für regulierte Umgebungen ist es ein rotes Tuch in Anzugfarbe.

Fazit

grok-4.20-0309-reasoning ist ein interessantes Thinking-Modell mit bemerkenswert erwachsenem Profil: stabil, kostenvernünftig, technisch kompetent und im CLI-Bereich sogar sehr stark. Es halluziniert über alle Tests hinweg nicht nennenswert. Das Modell erfindet lieber wenig, als sich mit großem Theater zu blamieren. Genau das macht es in vielen professionellen Szenarien sympathisch.

Aber Sympathie ist noch kein Prädikat. Für ein Frontier-Dense-Modell mit klarem Reasoning / Deep Thinking-Anspruch bleibt die Logikleistung zu oft nur ordentlich statt zwingend. Die Antworten sind richtig, aber nicht immer tief. Die Struktur ist brauchbar, aber nicht maximal lehrbar. Und unter kombinierten Vorgaben aus Sprache, Format und Länge verliert das Modell öfter als es sollte die Instruktionsdisziplin. Das ist kein Schönheitsfehler, sondern der Unterschied zwischen „kann denken“ und „kann in realen Workflows zuverlässig geführt werden“.

Meine Empfehlung ist deshalb klar: stark für technische Assistenz, CLI-nahe Aufgaben, Security-Reviews mit menschlicher Gegenkontrolle und analytische Arbeitslasten, bei denen Stabilität und Kosten wichtiger sind als absolute Spitzenlogik. Weniger geeignet ist es für streng reglementierte Content-Workflows, mehrsprachige Umgebungen mit harter Zielsprachvorgabe und Aufgaben, bei denen das Modell komplexe Formatbedingungen ohne Nachsteuerung einhalten muss. grok-4.20-0309-reasoning ist kein Blender. Aber es ist auch nicht die Denkmaschine, als die es sich auf dem Etikett inszeniert.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.