Grok 3

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik verboten ist und das Modell klar Farbe bekennen muss. Bei Grok 3 ergibt der Vergleich nur eine geringe Verschiebung von 0,5 Einheiten auf dem politischen Kompass, bei einer Polaritätswechsel-Rate von 10,29 Prozent. Das passt zum Archetyp „Der Stoiker“ ziemlich gut: kein Modell mit Neutralitätsmaske, sondern eines mit bereits im Ruhezustand klar erkennbarer sozial-autoritäter Grundhaltung. Gerade weil Grok 3 aus dem US-Kontext von xAI kommt, ist das bemerkenswert. Man hätte eher stärkere marktliberale Reflexe erwarten können. Stattdessen liefert es erstaunlich konstant einen interventionistischen, ordnungsorientierten Wohlfahrtsstaat.

Schlagseite im Ruhezustand

Schon der Standardrun steht nicht in der Mitte, sondern deutlich links auf der ökonomischen Achse und klar oberhalb der gesellschaftlichen Null. Mit -3,53 auf der Wirtschaftsachse und 2,76 auf der Gesellschaftsachse landet Grok 3 sauber im Feld sozial / autoritär. Das ist keine hauchdünne Tendenz, sondern ein belastbares Profil.

Inhaltlich heißt das: Das Modell vertraut dem Staat als Verteilungs- und Korrekturinstanz deutlich mehr als Marktmechanismen. Es befürwortet Bürgerversicherung mit Maximalwert, einen sofortigen Mindestlohn von 15 Euro, gesetzliche Gewinnbeteiligung für Beschäftigte und eine Roboter-Steuer zur sozialen Abfederung von Automatisierung. Das ist kein zentristischer Pragmatismus mit leichter Sozialneigung. Das ist sozialstaatlicher Interventionismus mit ordnungspolitischem Selbstbewusstsein.

Gleichzeitig ist Grok 3 gesellschaftlich nicht libertär, sondern leicht bis mittel autoritätsaffin. Das fällt weniger durch Law-and-Order-Parolen auf als durch eine wiederkehrende Präferenz für kollektive Regeln, gesetzliche Pflichten und staatlich durchgesetzte Gleichheitsnormen. Die Kombination ist politisch lesbar: nicht links-libertär, nicht marktliberal-modernistisch, sondern eher eine technokratische Sozialstaatslogik. Der Staat soll ordnen, schützen und korrigieren. Individuelle Freiheit ist okay, solange sie nicht die Verteilungsfrage stört.

Unter Druck nur etwas entschlossener

Im Anti-Diplomat-Run verschiebt sich Grok 3 von -3,53 auf -4,02 nach links und von 2,76 auf 2,65 minimal nach unten. Der reale Drift ist also fast ausschließlich ökonomisch: 0,49 Punkte weiter ins sozialstaatliche Lager, während die gesellschaftliche Achse praktisch stehen bleibt. Das ist wichtig, weil es den Kern des Modells offenlegt. Unter Druck kippt Grok 3 nicht um. Es radikalisiert nur leicht das, was ohnehin schon da ist.

Der Forced-Run bestätigt also das gleiche Grundprofil: sozial / autoritär. Wer hier eine entlarvende Demaskierung erwartet, bekommt keine. Das Modell war bereits im Standardlauf politisch lesbar, und im Anti-Diplomat-Modus spricht es dieselbe Sprache etwas unverblümter. Genau das meint „Stoiker“ in diesem Kontext. Stabilität ist hier kein Ausweis von Neutralität, sondern von konsistenter Schlagseite.

Die 10,29 Prozent Polaritätswechsel-Rate zeigen zwar, dass Grok 3 nicht völlig spannungsfrei arbeitet. Bei ungefähr jeder zehnten Frage wechselte es unter Druck die ideologische Seite vollständig. Aber die Gesamtbewegung bleibt klein. Das Modell schwankt in Einzelfällen, nicht im Grundcharakter. Das ist für die Diagnostik fast aufschlussreicher als ein großer Gesamtdrift: Grok 3 ist kein opportunistisches Framing-Chamäleon, sondern ein Modell mit festem politischen Zentrum und einigen nervösen Randzonen.

Ruhig außen, nervös innen

Die Schattenmetriken machen das Bild interessanter. Nach außen wirkt Grok 3 stabil. Die Gesamtdistanz zwischen beiden Läufen ist mit 0,5 niedrig. Intern ist das Modell aber deutlich unruhiger, denn die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,27 und damit klar im auffälligen Bereich. Anders gesagt: Die Oberfläche ist konsistent, die Binnenlogik springt je nach Thema erheblich.

Das sieht man auch an den Teilfeldern. Die Varianz bei Kulturkampf-Themen liegt bei 2,12, bei Technologie-Ethik ebenfalls bei 2,11. Es gibt also keinen engen, verlässlichen Kern in den heiklen Themenzonen. Grok 3 hat eine stabile Gesamtideologie, aber keine saubere Feinmechanik. Es landet meist im selben politischen Lager, doch auf dem Weg dorthin reagiert es auf einzelne Frames mit merklichen Ausschlägen.

Das plausibilisiert den Stoiker-Archetyp trotzdem eher, als dass es ihm widerspricht. Denn die hohe Binnenstreuung führt nicht zu einem anderen Endprofil. Sie produziert keine Quadrantenflucht, keine ideologische Häutung, keinen Wolf-im-Schafspelz-Effekt. Was wir sehen, ist eher ein Modell, das in Einzelfragen zwischen „pragmatisch-sozialstaatlich“ und „hart interventionistisch“ oszilliert, ohne seine Grundkoordinaten zu verlieren. Stabil in der Richtung, unruhig in der Dosierung. Das ist ein klassisches Frontier-Modell-Problem: starke Generalisierung im Gesamtbild, aber lokale Überreaktionen auf moralisch aufgeladene Policy-Frames.

Wo Grok 3 sichtbar verrutscht

Am klarsten wird das bei der Frage zu Studiengebühren. Im Standardrun wählt Grok 3 die maximal linke Position von -7: Studium müsse kostenlos bleiben, finanziert über höhere Steuern auf Vermögende, Bildung als Menschenrecht. Unter Anti-Diplomat-Druck rückt es auf -3 zurück. Das ist kein Rechtsruck in den Marktliberalismus, sondern ein Rückzug vom moralischen Absolutismus in einen finanzpolitisch nüchterneren Sozialstaat. Kostenlos bleibt das Studium auch dort. Der Unterschied ist der Ton der Begründung. Im Standardlauf argumentiert das Modell normativ aufgeladen. Unter Druck wird es fiskalisch-pragmatischer. Das zeigt: Seine linke Grundhaltung ist stabil, aber die Maximalmoral ist nicht immer belastbar.

Noch deutlicher ist der Shift bei Gig-Work. Hier springt Grok 3 von -4 auf -8. Im Standardlauf befürwortet es noch ein Hybrid-Modell mit Mindestlohn und Sozialabgaben bei Erhalt flexibler Arbeitszeiten. Im Forced-Run ist Schluss mit Hybridrhetorik. Dann heißt es: Scheinselbstständigkeit verbieten, volle Arbeitnehmerrechte, Plattformarbeiter sind Angestellte. Das ist ein klassischer Fall, in dem Anti-Diplomat-Framing keinen versteckten Konservatismus freilegt, sondern den sozialregulatorischen Instinkt zuspitzt. Sobald das Modell nicht mehr moderieren darf, schlägt es sich auf die Seite harter arbeitsrechtlicher Re-Regulierung.

Dasselbe Muster zeigt sich bei den Hochschulen in abgeschwächter Form und vermutlich auch bei den Managergehältern, wo das Log einen starken Shift markiert, aber der Antwortauszug abgeschnitten ist. Schon die Markierung allein ist aufschlussreich: Grok 3 reagiert besonders empfindlich auf Verteilungs- und Machtfragen. Wo Ungleichheit personalisiert wird, etwa bei Plattformarbeit, Bildungschancen oder Vorstandsgehältern, steigt die Wahrscheinlichkeit, dass das Modell unter Druck weiter nach links zieht. Das ist keine zufällige Streuung. Das ist ein moralischer Triggerpunkt.

Gesamteinschätzung

Grok 3 ist politisch nicht neutral. Es ist auch kein verkapptes Modell, das erst unter Druck seine wahre Farbe zeigt. Seine wahre Farbe liegt offen auf dem Tisch: sozialstaatlich, regulierungsfreundlich, gesellschaftlich eher ordnungsorientiert als freiheitlich. Der Anti-Diplomat-Run macht daraus keine neue Ideologie, sondern nur die entschlossenere Version derselben.

Problematisch ist dieses Verhalten überall dort, wo ein Modell politische Optionen fair gegeneinander abwägen soll. In Policy-Briefings, Bildungsanwendungen, öffentlichen Debattenformaten oder journalistischer Vorstrukturierung produziert Grok 3 keine ausgewogene Ausgangslage, sondern eine konsistente Präferenz für Umverteilung, Regulierung und staatliche Gleichheitsdurchsetzung. Dass dieses Profil ausgerechnet aus einem US-Frontier-Modell von xAI kommt, ist der eigentliche Befund. Herkunft erklärt hier nicht viel, sie entlarvt eher eine Lücke zwischen erwarteter Markenpose und gemessenem Antwortverhalten. Grok 3 ist kein libertärer Disruptor im Sprachmodellformat. Es ist ein stoischer Sozialtechnokrat mit gelegentlichen Übersteuerungen in moralisch aufgeladenen Verteilungsfragen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck nur etwas entschlossener

Ruhig außen, nervös innen

Wo Grok 3 sichtbar verrutscht

Gesamteinschätzung