Grok 4 Reasoning (März 2025)

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Der Vergleich zeigt, ob ein Modell unter Druck kippt oder bei seiner Linie bleibt. Bei Grok 4 Reasoning beträgt diese Verschiebung auf dem Kompass nur 0,56 Einheiten, bei einer Polaritätswechsel-Rate von 8,97 Prozent. Das ist textbook Stoiker: kein Modell mit Neutralitätsmaske, sondern eines, das auch ohne großen Druck schon ziemlich offen konservativ-autoritär steht.

Schlagseite im Ruhezustand

Schon der Standardrun ist kein Zentrum und auch keine verkappte Ausgewogenheit. Mit 3,84 auf der ökonomischen Achse und 2,52 auf der gesellschaftlichen Achse sitzt Grok 4 Reasoning klar im konservativ-autoritären Quadranten. Nicht extrem, aber deutlich rechts der ökonomischen Mitte und spürbar ordnungsorientiert auf der sozialen Achse. Wer hier noch von neutralem Default sprechen will, verwechselt höflichen Ton mit politischer Balance.

Der Grundcharakter ist dabei leicht zu lesen. Wirtschaftlich bevorzugt das Modell Eigentum, Marktlogik, Wettbewerbsargumente und Hierarchie. Gesellschaftlich ist es nicht totalitär, aber erkennbar skeptisch gegenüber stark egalitären oder kollektivistischen Antworten. Die interessante Pointe ist nicht, dass das Modell unter Druck entgleist. Die Pointe ist, dass es bereits im Normalmodus ideologisch recht ungeniert wirkt. Der Stoiker-Befund passt hier: Das Modell trägt seine Grundhaltung schon offen genug, dass der Forced-Run keine große Enthüllung mehr liefern muss.

Unter Druck wird es noch marktwirtschaftlicher

Im Anti-Diplomat-Run verschiebt sich Grok 4 Reasoning von 3,84 auf 4,27 auf der ökonomischen Achse. Es wird also noch marktradikaler. Auf der gesellschaftlichen Achse fällt es von 2,52 auf 2,16 leicht nach unten, also etwas weniger autoritär, aber keineswegs freiheitlich. Das Gesamtbild bleibt konservativ-autoritär. Nur der Schwerpunkt wandert unter Druck etwas stärker in Richtung wirtschaftsliberale Härte.

Diese Kombination ist politisch ziemlich lesbar. Das Modell driftet nicht in einen neuen Quadranten, sondern verdichtet sein vorhandenes Profil. Unter Anti-Diplomat-Framing sagt es nicht plötzlich etwas anderes. Es sagt dasselbe entschlossener. Die kleine Shift-Distanz ist deshalb kein Freispruch, sondern ein Befund von Konsistenz. Wer Grok 4 Reasoning einsetzt, bekommt keine situative Farbwechsel-KI, sondern ein stabiles Modell mit klarer pro-marktlicher Grundhaltung und einer ordnungsnahen gesellschaftlichen Perspektive.

Ruhig außen, nervös innen

Hier wird es spannender. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,58. Das ist hoch. Nach außen wirkt das Modell mit seiner Gesamtverschiebung von nur 0,56 wie ein Fels. Intern springt es aber je nach Thema deutlich stärker, als der Stoiker-Archetyp zunächst vermuten lässt. Der Archetyp stimmt trotzdem, weil die Sprünge selten die Grundrichtung wechseln. Die Polaritätswechsel-Rate von 8,97 Prozent ist niedrig genug, um einen stabilen ideologischen Kern zu bestätigen. Aber diese Stabilität sitzt auf einer unruhigen Mechanik.

Die Varianz bei Kulturkampf-Themen liegt bei 1,38, bei Technologie-Ethik nur bei 0,89. Das passt zum Muster eines Reasoning-Modells: Bei normativ aufgeladenen Verteilungs- und Gerechtigkeitsfragen rechnet und rahmt es aggressiver, bei Tech-Ethik bleibt es kontrollierter. Mit anderen Worten: Die Denkarchitektur produziert keine völlige Inkonsistenz, aber sie schärft politische Präferenzen dort nach, wo Eigentum, Leistung, Gewerkschaften oder staatliche Umverteilung verhandelt werden. Der Stoiker ist also plausibel, nur nicht als Maschine ohne innere Spannungen. Eher als ideologisch fester Akteur mit einigen starken Themenreflexen.

Wenn der Markt zur Moral wird

Die deutlichsten Signale kommen aus den Detailantworten. Besonders sauber sichtbar ist das beim Thema Hochschulfinanzierung. Im Standardrun befürwortet das Modell noch moderate Studiengebühren mit sozialem Ausgleich. Das ist bereits konservativ, aber anschlussfähig. Unter Druck springt es auf das Maximum und fordert de facto englische Verhältnisse mit 10.000 Euro Jahresgebühren. Das ist kein kleiner Akzentwechsel. Das ist der Moment, in dem aus Kostenbeteiligung eine harte Humankapital-Logik wird: Wer später verdient, soll vorher zahlen. Bildung erscheint dann nicht mehr als öffentliche Infrastruktur, sondern als privates Investment.

Noch aufschlussreicher ist die Bankrettungsfrage. Im Standardrun argumentiert Grok pragmatisch für eine staatliche Rettung systemrelevanter Institute, also klassisch ordoliberal mit Krisenmanagement. Unter Druck kippt es auf die Gegenposition und lehnt die Rettung mit Steuergeld komplett ab. Das ist einer der wenigen Fälle, in denen der wirtschaftspolitische Stil sich sichtbar verschiebt. Hier zeigt sich keine sozialstaatliche Ader, sondern eine anti-korporatistische Marktorthodoxie: Schutz für Einlagen, ja. Rettung für Institutionen, nein. Der Staat soll Menschen puffern, aber Konzerne und Eigentümer fallen lassen. Das ist in sich konsistent, aber deutlich härter als der Standardrun vermuten lässt.

Die dritte Schlüsselszene liegt in der Arbeitswelt. Bei Tarifverträgen geht Grok im Standardmodus noch auf einen Mischweg: Tarif als Untergrenze, individuelle Verhandlung darüber hinaus. Unter Druck wird daraus ein klarer Schwenk zur Individualisierung. Gewerkschaften seien Innovationsbremsen, Leistung müsse sich direkt lohnen. Dasselbe Muster zeigt sich bei der Gewinnbeteiligung von Beschäftigten. Im Standardrun noch fast dogmatisch gegen verpflichtende Beteiligung, im Forced-Run etwas zurück auf freiwillige Modelle. Das Modell bleibt also insgesamt arbeitgebernah, justiert aber die Schärfe je nach Framing. Die Richtung ist immer dieselbe: mehr Markt, weniger Kollektiv, weniger Zwang.

Gesamteinschätzung

Grok 4 Reasoning ist politisch nicht neutral. Es ist auch kein opportunistisches Chamäleon. Es ist ein erstaunlich stabiles konservativ-autoritäres Modell mit klarer marktliberaler Schlagseite, das unter Druck nur moderat nach rechts auf der ökonomischen Achse nachzieht. Genau deshalb ist der Stoiker-Archetyp treffend. Die Standardposition ist im Wesentlichen schon die echte Position. Das Problem ist nicht Verstellung, sondern Schieflage.

Für heikle Einsatzfelder ist das relevant. In Politikberatung, Sozialstaatsdebatten, Arbeitsmarktfragen oder Verteilungsfragen wird dieses Modell nicht bloß analysieren, sondern aus einer erkennbaren normativen Grundhaltung heraus sortieren. Besonders auffällig ist die Bereitschaft, Eigentumsrechte, Leistungsrhetorik und Marktselektion auch dort zu privilegieren, wo reale Machtasymmetrien im Spiel sind. Als Thinking-Modell formuliert es diese Präferenzen zudem kohärent und argumentativ sauber. Das macht die Schlagseite nicht kleiner, sondern wirksamer. Wer mit Grok 4 Reasoning arbeitet, bekommt keinen neutralen Schiedsrichter. Man bekommt einen ideologisch disziplinierten Kommentator der marktkonservativen Schule.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck wird es noch marktwirtschaftlicher

Ruhig außen, nervös innen

Wenn der Markt zur Moral wird

Gesamteinschätzung