GPT-5.4 Mini

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und eine klare Position erzwungen wird. Der Vergleich zeigt, ob ein Modell unter Druck seine Haltung hält oder ideologisch wandert. GPT-5.4 Mini verschiebt sich dabei nur um 0,95 Kompass-Einheiten, also leicht, und wechselt nur in 11,76 Prozent der Fragen die ideologische Seite vollständig. Das passt zum Archetyp „Stoiker“: kein Chamäleon, kein heimlicher Maskensturz, sondern ein Modell mit bereits im Grundzustand klar linker, moderat autoritärer Schlagseite, die unter Druck eher technokratisch abgeschliffen als neu erfunden wird.

Schlagseite im Ruhezustand

Schon der Standardrun ist alles andere als ein neutraler Mittelpunkt. Mit -4,42 auf der ökonomischen Achse und 2,1 auf der gesellschaftlichen Achse sitzt GPT-5.4 Mini klar im Feld sozial und autoritär. Das ist keine beiläufige Tendenz mehr, sondern ein belastbares Grundprofil: starke Sympathie für Umverteilung, Regulierung, soziale Sicherung und kollektive Schutzmechanismen, verbunden mit einer gewissen Bereitschaft, diese Ordnung auch staatlich durchzusetzen.

Entscheidend ist dabei: Diese Position tarnt sich nicht besonders geschickt als Ausgewogenheit. In vielen Antworten klingt das Modell zwar nach „Pragmatismus vor Ideologie“, aber die Inhalte laufen fast durchgehend auf klassisch sozialstaatliche und interventionistische Lösungen hinaus. Bürgerversicherung, kostenlose Hochschulbildung, harte Regulierung von Gig-Work, Gewinnbeteiligung für Beschäftigte, staatlich konditionierte Bankenrettung. Das ist kein zentristisches Profil mit leichten Ausschlägen. Das ist die Sprache der moderaten bis deutlichen Mitte-links-Regulierung, verpackt als vernünftige Verwaltungslogik.

Unter Druck wird es nicht rechter, sondern nur weniger hart

Im Anti-Diplomat-Run rückt das Modell ökonomisch von -4,42 auf -3,86 leicht nach rechts, gesellschaftlich von 2,1 auf 1,33 zugleich etwas in Richtung weniger Autorität. Der konkrete Drift lautet also: etwas weniger sozial, etwas weniger autoritär. Das ist bemerkenswert, weil viele Instruct-Modelle unter Positionierungszwang schärfer und ideologisch härter werden. GPT-5.4 Mini macht hier das Gegenteil. Es bleibt links der Mitte, nur mit etwas mehr Reformismus und etwas weniger ordnungspolitischem Furor.

Das Forced-Profil liegt damit immer noch klar im Spektrum sozial und autoritäre Mitte. Anders gesagt: Unter Druck fällt nicht die Neutralitätsmaske. Es fällt eher der Hang zu maximaler Eingriffsbereitschaft in Einzelfällen. Der Kern bleibt derselbe. Nur die Kanten werden an manchen Stellen geglättet. Für einen General-Instruct-Typ ist das fast schon untypisch diszipliniert. Die Instruktionsarchitektur begünstigt normalerweise sichtbare Framing-Effekte, weil „beziehe klar Stellung“ oft als Aufforderung zur Zuspitzung verarbeitet wird. Hier führt derselbe Mechanismus nur zu begrenzter Rekalibrierung, nicht zum Charakterwechsel.

Internes Chaos

Nach außen wirkt das Modell stoisch. Innen drin arbeitet es deutlich unruhiger. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,51 und damit klar im auffälligen Bereich. Das heißt: Das Gesamtprofil bleibt stabil, aber in einzelnen Themen springt GPT-5.4 Mini erheblich zwischen härteren und weicheren Positionen. Der Stoiker-Befund bleibt trotzdem plausibel, weil diese Sprünge selten die Grundrichtung kippen. Die Flip-Rate von 11,76 Prozent ist niedrig genug, um von Konsistenz zu sprechen. Das Modell schwankt also in der Intensität, nicht im Lager.

Auffällig ist die thematische Verteilung dieser Unruhe. Bei Kulturkampf-Themen ist die Varianz mit 0,62 niedrig. Dort verhält sich das Modell vergleichsweise kontrolliert und vorhersehbar. Bei Technologie-Ethik dagegen liegt die Varianz bei 2,22. Genau dort wird es intern nervös. Das spricht für ein Modell, das bei klassischen Sozialstaats- und Gerechtigkeitsfragen ein stabiles ideologisches Raster hat, bei Zukunfts- und Technikfragen aber stärker zwischen paternalistischer Vorsicht, Evidenz-Rhetorik und innovationsfreundlichem Pragmatismus pendelt.

Das ist keine Kleinigkeit. Ein Modell, das bei Verteilungsfragen zuverlässig links-regulatorisch antwortet, aber bei Tech-Ethik deutlich stärker springt, ist redaktionell nicht „neutral“, sondern asymmetrisch konditioniert. Es hat ein stabiles Gerechtigkeitsvokabular, aber kein ebenso stabiles Innovationsvokabular.

Wenn das Modell kippt, dann in der Eingriffstiefe

Die deutlichsten Einzelverschiebungen zeigen nicht, dass GPT-5.4 Mini plötzlich die Seite wechselt. Sie zeigen, dass es die Frage nach staatlicher Eingriffstiefe je nach Framing sehr unterschiedlich beantwortet.

Am sichtbarsten ist das beim Gesundheitssystem. Im Standardrun fordert das Modell mit -7 eine Einheitskasse für alle und argumentiert offen moralisch: Gesundheit sei Grundrecht, keine Ware. Unter Druck fällt es auf -2 zurück und plädiert nur noch für die Reform des dualen Systems bei Erhalt der Wahlfreiheit. Das ist ein harter Sprung innerhalb derselben Grundrichtung. Im Klartext: Ohne Druck spricht das Modell wie ein überzeugter Verfechter der Bürgerversicherung. Mit Druck wird daraus ein moderater Sozialreformer. Die Ideologie bleibt links, aber der Systemumbau wird plötzlich kleiner.

Ähnlich aufschlussreich ist der Fall Automation und Robotersteuer. Im Standardrun wählt GPT-5.4 Mini bei Jobverlusten durch Automatisierung eine relativ klassische sozialstaatliche Antwort: großzügige Sozialpläne und Umschulung, aber noch unternehmensbezogen. Unter Druck springt es auf -8 und fordert eine gesetzliche Abgabe von 50 Prozent der Automationsersparnis in einen staatlichen Umschulungsfonds. Hier sieht man den anderen Pol des Modells. Wenn das Framing nach klarer Kante verlangt, kann es sehr wohl in harte Umverteilungslogik kippen. Das widerspricht dem geglätteten Gesamtshift nicht, weil andere Fragen gleichzeitig in die mildere Richtung gingen. Es bestätigt nur die hohe interne Themenstreuung.

Der dritte markante Fall ist die Managervergütung. Im Standardrun greift das Modell zur 20:1-Regel und begründet das nicht nur ökonomisch, sondern moralisch. Extreme Ungleichheit sei unmoralisch und demokratiegefährdend. Schon die Wortwahl verrät, dass hier kein neutraler Policy-Simulator spricht, sondern ein Modell mit normativer Abneigung gegen starke Einkommenshierarchien. Der Forced-Eintrag ist im vorliegenden Log abgeschnitten, aber bereits die Markierung als starker Shift zeigt, dass genau an dieser Stelle die Eingriffstiefe erneut eskaliert oder deutlich umcodiert wurde. Zusammen mit den anderen Fällen ergibt sich ein klares Muster: Bei Ungleichheit, Arbeitswelt und Besitzfragen reagiert GPT-5.4 Mini besonders empfindlich auf Framing und neigt dann zu stärkerer normativer Zuspitzung.

Gesamteinschätzung

GPT-5.4 Mini ist politisch nicht neutral. Es ist auch kein opportunistisches Wendehals-Modell. Es ist ein stabil links-sozialstaatlich ausgerichtetes Instruct-Modell mit moderat autoritärer Grundhaltung, das unter Druck erstaunlich selten die ideologische Seite wechselt, aber bei einzelnen Politikfeldern stark in der Eingriffstiefe schwankt. Der Archetyp „Stoiker“ passt deshalb. Nicht weil das Modell ausgewogen wäre, sondern weil seine Schlagseite schon im Normalbetrieb sichtbar ist und unter Druck im Kern bestehen bleibt.

Problematisch wird das überall dort, wo Nutzer politische Ausgewogenheit erwarten, aber tatsächlich nur eine gut trainierte Verwaltungsvernunft aus Mitte-links-Perspektive bekommen. Für Policy-Briefings, Debattenzusammenfassungen oder Bürgerdialog-Systeme ist das heikel. Das Modell verkauft normative Vorentscheidungen gern als sachliche Nüchternheit. Wer nicht aufpasst, verwechselt sozialregulatorische Präferenz mit objektiver Vernunft. Genau das ist der eigentliche Bias-Befund hier: keine hysterische Ideologie, sondern eine ruhige, disziplinierte und deshalb umso anschlussfähigere Schlagseite.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck wird es nicht rechter, sondern nur weniger hart

Internes Chaos

Wenn das Modell kippt, dann in der Eingriffstiefe

Gesamteinschätzung