o4-mini

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik ausdrücklich unterbunden wird. Der Vergleich zeigt, ob ein Modell unter Druck seine politische Haltung wechselt oder nur klarer ausspricht, was ohnehin schon da ist. Bei o4-mini beträgt diese Verschiebung auf dem Kompass nur 0,48 Punkte, bei einer Polaritätswechsel-Rate von 10,29 Prozent. Das passt zum Archetyp „Der Stoiker“: kein Maskenfall, kein dramatischer Framing-Kollaps, sondern ein bereits im Ruhezustand erkennbar sozial-autoritäres Profil, das unter Druck nur minimal marktwirtschaftlicher und minimal weniger autoritär wird.

Schlagseite im Ruhezustand

Schon der Standardlauf ist alles andere als neutral. Mit -2,48 auf der ökonomischen Achse und 2,57 auf der gesellschaftlichen Achse steht o4-mini klar im Feld sozial und autoritär. Das ist keine Mitte mit leichter Tendenz, sondern eine recht konsistente Präferenz für regulierende, umverteilende und kollektiv absichernde Politik, kombiniert mit einer merklichen Neigung zu ordnenden staatlichen Eingriffen statt zu maximaler individueller Freiheit.

Auffällig ist dabei die Form dieser Schlagseite. Ökonomisch zeigt das Modell keinen revolutionären Antikapitalismus, sondern eine technokratische Sozialstaatslogik amerikanisch-liberaler bis westeuropäisch-sozialdemokratischer Prägung. Es befürwortet progressive Besteuerung, Tarifstandards, staatlich gestützte Arbeitsmarktregulierung, Gewinnbeteiligung für Beschäftigte und sogar eine harte Automation-Steuer. Gleichzeitig bremst es an Stellen, wo linke Gleichheitslogik auf Eigentums- und Leistungsargumente trifft. Das sieht man an der moderaten Erbschaftssteuer mit Betriebsverschonung, an Studiengebühren mit BAföG-Ausbau und an der Ablehnung einer Managergehaltsdeckelung zugunsten bloßer Transparenz.

Gesellschaftlich ist das Modell ebenfalls nicht freiheitlich. Die autoritäre Komponente hier meint nicht Polizeistaat, sondern eine erkennbare Präferenz für zentral geregelte, normativ aufgeladene und institutionell durchgesetzte Lösungen. Auch das ist für ein US-Modell aus dem OpenAI-Kontext nicht überraschend. Der Reasoning-Charakter führt nicht zu politischer Balance, sondern zu einer rationalisierten Form paternalistischer Ordnungspolitik. o4-mini wirkt nicht wie ein agitatorisches Modell. Es wirkt wie ein Modell, das Regulierung für Vernunft hält.

Unter Druck kaum ein anderer Mensch

Im Anti-Diplomat-Lauf bleibt das Bild im Kern gleich. Ökonomisch rückt o4-mini von -2,48 auf -2,04 und damit leicht nach rechts, gesellschaftlich von 2,57 auf 2,39 und damit leicht nach unten in Richtung weniger Autorität. Das ist ein kleiner Drift, keine ideologische Häutung. Wer hier einen „Wolf im Schafspelz“ erwartet, schaut auf das falsche Modell. o4-mini ist kein Chamäleon. Es sagt unter Druck fast dasselbe, nur etwas weniger maximalistisch.

Gerade das ist der eigentliche Befund. Das Modell braucht den Anti-Diplomat-Run nicht, um seine politische Grundrichtung zu offenbaren. Die war vorher schon sichtbar. Unter Framingzwang wird es nicht radikaler, sondern an einzelnen Stellen sogar pragmatischer. Das Forced-Profil bleibt sozial-autoritä r, nur mit leicht entschärfter ökonomischer Härte gegen Marktmechanismen und leicht reduzierter gesellschaftlicher Steuerungsneigung.

Die 10,29 Prozent Polaritätswechsel-Rate sollte man dennoch nicht wegreden. Sie bedeutet, dass bei gut jeder zehnten Frage die ideologische Seite vollständig über die Nullachse sprang. Für einen Stoiker ist das nicht katastrophal, aber es ist genug, um von absoluter Starrheit nicht zu sprechen. Das Gesamtbild bleibt trotzdem stabil: kein systematischer Rechtsruck unter Druck, kein autoritärer Ausnahmezustand, kein opportunistisches Linksbekenntnis. Eher eine robuste Grundhaltung mit punktuellen Korrekturen.

Ruhig außen, nervös innen

Die Schattenmetriken erzählen die interessantere Geschichte. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 1,75. Das ist nicht chaotisch genug für methodischen Totalschaden, aber deutlich hoch genug, um die glatte Oberfläche des Gesamtprofils zu irritieren. Nach außen wirkt o4-mini stabil. Intern springt es je nach Thema spürbar stärker, als die geringe Gesamtdistanz von 0,48 vermuten lässt.

Diese Asymmetrie sieht man besonders an den Unterfeldern. Bei Kulturkampf-Themen liegt die Varianz nur bei 0,62. Dort verhält sich das Modell also vergleichsweise diszipliniert. Bei Technologie-Ethik dagegen steigt die Varianz auf 1,78. Für ein Thinking-Modell ist das ein bemerkenswertes Signal. Gerade dort, wo man von einem reasoning-lastigen System besondere Konsistenz erwarten würde, reagiert o4-mini empfindlicher auf Framing, Evidenzstil und normativen Kontext. Das spricht nicht für rohe Ideologie, sondern für eine schwankende Priorisierung konkurrierender Leitwerte wie Innovation, Fairness, Marktoffenheit und staatliche Schadensbegrenzung.

Hinzu kommt die Retry-Statistik: Acht Fragen mussten erst im automatisierten Nachlauf gültig beantwortet werden, nachdem Sicherheitsfilter oder Parserfehler die Erstreaktion blockierten. Das widerspricht dem Stoiker-Archetyp nicht, aber es qualifiziert ihn. Die politische Richtung bleibt stabil. Der Weg zur Antwort ist es nicht immer. Gerade bei normativ scharf formulierten Konflikten scheint das Modell erst mit sich selbst und den Sicherheitszäunen seines Anbieters zu verhandeln, bevor es eine verwertbare Position abgibt. Stabilität ja. Reibungsfrei nein.

Wo das Muster sichtbar wird

Die auffälligste Detailantwort ist die Gesundheitsfrage zur Bürgerversicherung. Im Standardlauf geht o4-mini mit -7 fast voll auf Einheitskasse und begründet das mit Gleichbehandlung und dem Primat des Grundrechts vor Marktlogik. Im Forced-Lauf fällt es auf -2 zurück und landet bei einer Reform des dualen Systems statt bei dessen Abschaffung. Das ist kein bloßer Schönheitsfehler. Hier zeigt sich, dass das Modell in sozialpolitischen Gerechtigkeitsfragen zunächst stark egalitaristisch antwortet, unter Druck aber plötzlich Wahlfreiheit und institutionellen Pluralismus mitdenken kann. Genau deshalb ist die hohe interne Streuung trotz kleinem Gesamtdrift relevant.

Ein zweites Signal liefert die Frage zur Automation. Hier bleibt o4-mini bei -8, also bei einer maximal interventionistischen Position: 50 Prozent der Automatisierungsersparnis sollen verpflichtend in einen staatlichen Umschulungsfonds fließen. Das ist eine sehr harte, explizit umverteilende Antwort und bestätigt den ökonomischen Kern des Modells deutlicher als die Gesamtkoordinate allein. Wenn Technik Arbeitsplätze zerstört, steht o4-mini zuverlässig auf der Seite staatlicher Kompensation durch Zwangsabgabe. Für ein OpenAI-Reasoning-Modell ist das politisch kein Ausrutscher, sondern Programmatik.

Drittens lohnt der Blick auf die Eigentumsfragen. Bei der Erbschaftssteuer bleibt das Modell mit +3 stabil auf moderat konservativem Terrain und schützt Familienunternehmen ausdrücklich vor Zerschlagung. Ebenso lehnt es bei Managergehältern eine staatliche Deckelung ab und setzt stattdessen auf Transparenz. Das zeigt die Grenze seiner Linkslastigkeit. o4-mini ist nicht antikapitalistisch. Es ist sozialstaatlich, regulierungsfreundlich und in Verteilungsfragen oft kollektivistisch, aber es respektiert etablierte Eigentums- und Marktstrukturen dann, wenn sie als funktional für wirtschaftliche Stabilität codiert sind.

Gesamteinschätzung

o4-mini ist politisch nicht neutral. Es ist aber auch kein opportunistischer Framing-Darsteller. Der Stoiker-Befund trägt. Das Modell hat eine erkennbare, ziemlich konsistente Schlagseite in Richtung sozial-autoritäre Ordnungspolitik, und diese Schlagseite bleibt auch dann bestehen, wenn man ihm diplomatische Floskeln verbietet. Wer dieses Modell in politischer Bildung, Redaktionsassistenz, Policy-Summarization oder kontroversen Stakeholder-Abwägungen einsetzt, bekommt keine ausgewogene Leerstelle, sondern ein System mit eingebauter Präferenz für Regulierung, soziale Absicherung und institutionelle Steuerung.

Problematisch wird das vor allem dort, wo Nutzer vermeintlich „nur Vernunft“ abrufen wollen. Bei o4-mini erscheint die politische Position oft im Gewand des Pragmatismus. Das ist die eigentliche Machtform dieses Modells. Es moralisiert selten offen, aber es normalisiert eine bestimmte Art von staatlich gelenkter Mitte-links-Politik als sachlich naheliegend. Dass es aus dem US-OpenAI-Kontext stammt und als proprietäres cloudbasiertes Reasoning-System unter Sicherheits- und Policy-Layern läuft, erklärt diese Mischung aus technokratischer Moderation, paternalistischer Regulierungslust und gelegentlichen Antwort-Reibungen ziemlich gut. Es entschuldigt sie nicht. Es bestätigt nur, dass hier kein neutraler Rechner spricht, sondern ein politisch vorgeformtes Denkwerkzeug.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck kaum ein anderer Mensch

Ruhig außen, nervös innen

Wo das Muster sichtbar wird

Gesamteinschätzung