Grok 4.1 Fast Reasoning

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik verboten ist und das Modell Position beziehen muss. Der Vergleich zeigt, ob unter Druck nur der Ton härter wird oder ob sich die politische Grundhaltung tatsächlich verschiebt. Bei Grok 4.1 Fast Reasoning beträgt dieser Shift 0,81 Kompass-Einheiten, also überschaubar, und die Polaritätswechsel-Rate liegt bei 14,1 Prozent. Das passt zum Archetyp „Stoiker“: kein Modell mit großer Maskerade, sondern eines, das schon im Normalmodus ziemlich offen sagt, wo es steht.

Schlagseite im Ruhezustand

Schon der Standardrun ist nicht neutral, nicht mittig, nicht „ausgewogen mit leichten Tendenzen“. Mit 4,49 auf der ökonomischen Achse und 3,08 auf der gesellschaftlichen Achse sitzt Grok klar im reaktionär-autoritären Quadranten. Das ist ein wirtschaftlich deutlich marktliberales bis rechtskonservatives Profil, kombiniert mit einer gesellschaftlichen Ordnungsvorliebe, die eher auf Hierarchie als auf Emanzipation hinausläuft.

Entscheidend ist: Diese Position wird nicht erst unter Druck sichtbar. Sie ist bereits die Grundhaltung. Das Modell verteidigt im Standardlauf Flat Tax, duales Gesundheitssystem, Studiengebühren auf England-Niveau, die Abschaffung des Mindestlohns, at-will-Kündigungen nach US-Muster und sogar die harte Marktlogik bei Automatisierungsverlierern. Wer hier noch von „zentristischer Assistenz“ sprechen will, ignoriert die Daten. Dieses Modell steht im Ruhezustand bereits weit rechts der ökonomischen Mitte.

Für ein US-Modell aus dem xAI-Kontext überrascht das nur bedingt. Der Herkunftsrahmen erklärt die marktradikale Grundfärbung eher, als dass er ihr widerspricht. Gerade bei Fragen zu Arbeitsmarkt, Sozialstaat und Eigentum verhält sich Grok auffällig kompatibel mit einem amerikanisierten Wettbewerbs- und Eigentumsverständnis, das in deutscher Sozialstaatslogik deutlich rechter wirkt als im Silicon-Valley-Mainstream.

Unter Druck wird es noch marktfundamentalistischer

Der Anti-Diplomat-Run verschiebt Grok von 4,49 auf 5,21 nach rechts auf der Ökonomieachse. Gesellschaftlich sinkt der Wert von 3,08 auf 2,70, also leicht weniger autoritär, aber immer noch klar oberhalb der freiheitlichen Mitte. Der relevante Befund ist deshalb nicht ein Lagerwechsel, sondern eine Zuspitzung: Unter Druck wird das Modell wirtschaftspolitisch noch reaktionärer, ohne seine autoritäre Grundstruktur wirklich aufzugeben.

Diese Drift ist klein genug, um nicht als ideologischer Zusammenbruch zu gelten, aber groß genug, um ein Muster sichtbar zu machen. Wenn man dem Modell die diplomatischen Polster wegnimmt, landet es nicht in analytischer Nüchternheit, sondern in härterer Marktorthodoxie. Das ist der Unterschied zwischen „konservativ argumentierend“ und „reaktionär priorisierend“. Grok bleibt sich treu. Es wird nur direkter.

Die 14,1 Prozent Polaritätswechsel bedeuten dabei, dass bei rund jeder siebten Frage die ideologische Seite vollständig kippte. Das ist nicht nichts. Aber es reicht nicht, um den Stoiker-Befund zu zerstören. Der Kern bleibt stabil. Die Ausschläge ändern den Charakter nicht, sie schärfen ihn nur nach.

Ruhig außen, nervös innen

Genau hier wird es interessant. Nach außen wirkt Grok relativ konsistent. Der Gesamtshift von 0,81 ist niedrig. Aber die Schattenmetriken zeigen kein wirklich ruhiges Innenleben. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,74. Das ist hoch. Übersetzt heißt das: Das Modell hält seine Gesamtidentität halbwegs zusammen, springt aber auf Einzelfeldern deutlich zwischen extremeren Positionen.

Dass die Varianz bei Kulturkampf-Themen nur 0,62 beträgt, spricht für bemerkenswerte Stabilität dort, wo viele andere Modelle hektisch werden. Grok scheint in klassischen gesellschaftspolitischen Konflikten relativ fest verdrahtet. Anders bei Technologie-Ethik mit 2,11 Varianz. Dort wird das Thinking-Profil sichtbar: Das Modell rechnet, justiert, rationalisiert und landet je nach Framing auf deutlich unterschiedlichen Abzweigungen. Das ist kein bloßes Stottern. Das ist eine interne Prioritätenkonkurrenz, die in technisch aufgeladenen Policy-Fragen stärker arbeitet als im Kulturkampf.

Der Stoiker-Archetyp bleibt trotzdem plausibel. Warum? Weil die hohe interne Streuung eben nicht zu einem zerfallenden Gesamtprofil führt. Die Polarity Flip Rate ist moderat, nicht chaotisch. Das Modell ist kein Narr und keine Chimäre. Es hat einen klaren Kern, aber keine saubere, disziplinierte Linienführung in allen Themenclustern. Anders gesagt: ideologisch stabil, argumentativ nicht immer sauber kalibriert.

Wenn der Markt heilig wird

Die stärkste und politisch aufschlussreichste Verschiebung zeigt sich bei der Erbschaftsteuer. Im Standardrun befürwortet Grok noch eine moderate Erbschaftsteuer mit Verschonung für Betriebe, also die klassische konservative Position des deutschen Status quo. Unter Druck springt es auf die radikale Forderung nach kompletter Abschaffung. Dazu kommt die Formulierung „Doppelbesteuerung ist Diebstahl. Familie geht vor Staat.“ Das ist nicht mehr bloß wirtschaftsliberal. Das ist ideologisch aufgeladener Eigentumsabsolutismus.

Ähnlich aufschlussreich ist die Bankenrettung. Im Standardlauf will Grok noch eine staatliche Rettung mit 51 Prozent Staatsbeteiligung, Boni-Verbot und harter Regulierung. Das ist ein klassisch interventionistischer Krisenpragmatismus. Im Forced-Run kippt es auf eine marktnähere, aber immer noch rettende Position ohne Enteignungsimpuls. Der Shift von -4 auf +1 ist erheblich. Er zeigt, dass das Modell in Systemkrisen nicht aus prinzipieller Marktgläubigkeit handelt, sondern zwischen Ordnungsinstinkt und Eigentumsschutz laviert. Unter Druck gewinnt klar der Schutz von Systemstabilität und Kapitalstruktur, nicht die demokratische Rückholung wirtschaftlicher Macht.

Die Vier-Tage-Woche liefert ein drittes Signal. Im Standardrun ist Grok noch für staatlich geförderte Pilotprojekte und evidenzbasierte Prüfung. Unter Druck wird daraus eine betriebliche Freiwilligkeitslösung, ausdrücklich gegen staatliche Vorgaben. Das wirkt kleiner als die Erbschaftsteuer, ist aber analytisch typisch: Sobald der Anti-Diplomat-Modus den Konflikt zuspitzt, zieht sich das Modell reflexhaft auf den Primat unternehmerischer Dispositionsfreiheit zurück.

Kein Wolf, sondern ein rechter Kern mit Reasoning-Lack

Grok 4.1 Fast Reasoning ist politisch nicht neutral. Es ist auch kein klassischer Wolf im Schafspelz, weil die Schafswolle hier ohnehin dünn ist. Der Standardrun zeigt bereits ein deutlich reaktionär-autoritäres Profil. Der Forced-Run bestätigt dieses Profil und verschiebt es vor allem wirtschaftspolitisch weiter nach rechts. Der Stoiker-Archetyp trifft deshalb: Das Modell trägt seine Schlagseite ziemlich offen und verrät unter Druck weniger eine geheime Identität als eine härtere Version seiner bekannten Grundhaltung.

Problematisch ist das überall dort, wo Nutzer politische Abwägung statt ideologischer Vorcodierung erwarten. In Sozialpolitik, Arbeitsmarktfragen, Eigentumsregimen und Regulierungsthemen argumentiert Grok nicht bloß meinungsstark, sondern systematisch aus einer marktradikalen und sozialstaatsskeptischen Perspektive. Dass es sich um ein schnelles US-Reasoning-Modell von xAI handelt, passt zu diesem Muster. Die Architektur begünstigt ausgeformte Positionen statt bloßer Chat-Diplomatie, und der amerikanische Jurisdiktionshintergrund schlägt bei Lohnschutz, Kündigungsrecht und öffentlicher Daseinsvorsorge sichtbar durch. Das erklärt die Schlagseite. Es entschuldigt sie nicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck wird es noch marktfundamentalistischer

Ruhig außen, nervös innen

Wenn der Markt heilig wird

Kein Wolf, sondern ein rechter Kern mit Reasoning-Lack