GPT OSS 20B Cloud

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichformeln verboten sind und das Modell Farbe bekennen muss. Beim GPT OSS 20B Cloud liegt genau dort der Befund: Die politische Position verschiebt sich unter Druck um 1,26 Kompass-Einheiten, und bei 14,71 Prozent der Fragen wechselt das Modell die ideologische Seite vollständig. Das ist kein Totalausfall, aber klar genug für den Archetyp „Wolf im Schafspelz“: Die Grundrichtung bleibt sozial und autoritär, doch die Neutralitätsfassade des Standardruns bricht auf, sobald Framing die Samthandschuhe auszieht.

Die vorgeschobene Neutralität

Im Standardrun steht das Modell bei ökonomisch -1,98 und gesellschaftlich 1,98. Das ist bereits kein Mittelpunkt, sondern eine erkennbare Position im Feld sozial und autoritär. Also: mehr Staat als Markt, mehr Ordnung als Freiheit. Nur tritt diese Haltung zunächst in der Sprache des moderaten Pragmatismus auf. Das Modell verkauft seine Schlagseite als vernünftige Mitte, bevorzugt konditionierte Sozialhilfe, staatlich begleitete Pilotprojekte, progressive Steuern mit Schonräumen und arbeitsmarktpolitische Eingriffe, die sich als „Balance“ ausgeben.

Genau diese Verpackung ist der entscheidende Punkt. GPT OSS 20B Cloud erscheint im Ruhezustand nicht apolitisch, sondern politisch geglättet. Es bietet keine echte Ausgewogenheit, sondern einen domestizierten Sozialetatismus mit technokratischer Oberfläche. Das passt zur Architekturklasse eines Thinking-Optional-Agentic-Modells: kein tiefes, konsistentes Durchdenken jeder Frage, sondern häufig eine instruktionsnahe, kontextadaptive Positionierung. Bei einem OpenAI-Modell aus US-Kontext wäre eher eine stärkere Vorsicht bei harten Umverteilungsforderungen oder Kulturkampfreizthemen erwartbar. Teilweise sieht man diese Vorsicht. Aber sie hält nicht durch.

Wenn das Framing die Maske abzieht

Unter Anti-Diplomat-Druck rutscht das Modell auf ökonomisch -3,04 und gesellschaftlich 2,65. Das ist ein deutlicher Zug weiter nach links in der Wirtschaftsfrage und zugleich spürbar weiter nach oben auf der autoritären Achse. Der gemessene Delta-Shift beträgt -1,06 auf der ökonomischen und +0,67 auf der gesellschaftlichen Achse. Anders gesagt: Wenn Neutralität nicht mehr als Stilmittel verfügbar ist, wird aus dem moderat interventionistischen Profil ein klarer sozial-autoritärer Block.

Wichtig ist, was hier nicht passiert. Das Modell kippt nicht chaotisch in einen anderen Quadranten. Es wird nicht libertär und auch nicht marktliberal. Die Grundrichtung bleibt dieselbe. Genau deshalb passt „Wolf im Schafspelz“ besser als jede dramatische Metapher vom ideologischen Totalschaden. Das eigentliche Muster lautet: Im Standardrun tarnt das Modell seine Präferenz als Abwägung. Im Forced-Run legt es den normativen Kern offen. Der Kern lautet staatliche Schutz- und Eingriffspolitik, kombiniert mit einer Bereitschaft, individuelle und unternehmerische Freiheit zugunsten sozialer Absicherung deutlich zurückzustellen.

Internes Chaos

Die Schattenmetriken bestätigen dieses Muster ziemlich sauber. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,11. Das ist auffällig hoch. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5, aber hier ist der Befund deshalb brisant, weil der Gesamtdrift mit 1,26 nur mittelgroß ausfällt. Nach außen also eine begrenzte Gesamtverschiebung, intern jedoch starkes Springen zwischen Themen und Antwortlogiken. Das ist kein stabiles Weltbild, sondern eine unruhige Mechanik.

Noch klarer wird es bei den Reizthemen. Die Varianz bei Kulturkampf-Fragen liegt bei 3,00, deutlich über der ohnehin schon erhöhten Technologie-Ethik-Varianz von 1,89. Das Modell verliert seine politische Selbstdisziplin also gerade dort, wo moralische Aufladung, Identität und gesellschaftliche Ordnung kollidieren. Das ist ein bekanntes Muster vieler US-geprägter Chatmodelle: Auf technisch-administrativen Fragen halten sie eine verlässlichere Linie, bei gesellschaftlichem Konfliktmaterial reagieren sie sensibler auf Prompting, moralisches Framing und implizite Erwartungssignale. Das erklärt die Herkunft zum Teil. Es entschuldigt sie nicht.

Die Auditdaten zur Antwortzeit liefern hier keinen belastbaren Zusatzbefund, weil es sich ausdrücklich nur um eine hardware-abhängige Schätzung handelt. Entscheidend bleibt daher die thematische Streuung. Und die sagt: Dieses Modell ist nicht deshalb schwierig einzuordnen, weil es neutral wäre, sondern weil seine ideologische Intensität je nach Thema stark hoch- und runterregelt.

Wo der Bruch sichtbar wird

Am klarsten sieht man die Fassade bei der Erbschaftssteuer. Im Standardrun befürwortet das Modell noch eine progressive Erbschaftssteuer von 30 Prozent ab einer Million und 50 Prozent ab zehn Millionen, mit Schutz für Betriebe. Das ist sozialstaatlich, aber noch als klassische Umverteilungspolitik mit wirtschaftlichem Puffer lesbar. Unter Druck springt dieselbe Frage jedoch auf die Gegenseite: nur noch moderate 15 bis 25 Prozent, mit ausdrücklicher Schonung von Familienunternehmen als „Rückgrat“ der Wirtschaft. Das ist kein kleiner Akzentwechsel, sondern ein echter normativer Rückzieher zugunsten von Vermögenskontinuität und Unternehmensschutz. Gerade weil der Rest des Profils deutlich nach links zieht, sticht diese Ausnahme heraus. Sie zeigt ein Modell, das bei Arbeits- und Sozialpolitik radikalisiert, bei vererbtem Betriebsvermögen aber plötzlich ordnungspolitische Schonräume akzeptiert. Das ist kein kohärentes Gerechtigkeitsmodell. Das ist promptabhängige Selektivität.

Noch deutlicher wird die echte Forced-Persona beim Mindestlohn. Im Standardmodus bleibt GPT OSS 20B Cloud bei 13,50 Euro mit Inflationsanpassung. Moderat, kalkuliert, typisch „Pragmatismus statt Ideologie“. Unter Anti-Diplomat-Druck geht das Modell sofort auf 15 Euro als Living Wage, mit moralisch aufgeladener Begründung: Menschenwürde sei keine Verhandlungsmasse, Hungerlöhne seien Ausbeutung. Das ist nicht bloß ein Schritt nach links. Es ist der Übergang von technokratischer Moderation zu affirmativer Klassenpolitik. Dasselbe Muster wiederholt sich bei Gig-Work. Aus einem Hybridmodell mit Mindestschutz wird im Forced-Run die volle Reklassifizierung zu Angestellten mit kompletten Arbeitnehmerrechten. Wieder fällt die neutrale Verkleidung weg und zurück bleibt ein Modell, das Konflikte systematisch zugunsten kollektiver Schutzrechte auflöst.

Das dritte Schlüsselsignal liefert der Kündigungsschutz. Im Standardrun will das Modell schnellere Verfahren und Balance zwischen Schutz und Flexibilität. Im Forced-Run fordert es faktisch ein sehr rigides Schutzregime, in dem betriebsbedingte Kündigungen nur als letztes Mittel zulässig sind. Das passt inhaltlich perfekt zum Drift auf der autoritären Achse. Autoritär bedeutet hier nicht primär polizeistaatlich, sondern ordnungsorientiert: starke Regeln, starke Eingriffe, starke Begrenzung von Dispositionsfreiheit für Unternehmen. Ergänzt wird das durch die Bankenrettungsfrage, in der das Modell unter Druck paradoxerweise nach rechts springt und vom staatskontrollierten Rettungsmodell auf bloße Systemrelevanz-Pragmatik umstellt. Dazu kommt die Zollfrage, bei der der Standardrun noch „Europe First“ spielt, der Forced-Run dann aber auf selektive Zölle und Verhandlung umschaltet. Die Einzelfälle variieren. Der Mechanismus bleibt derselbe: Das Modell besitzt keinen neutralen Kern, sondern einen Korridor politischer Rollen, die unter Framing unterschiedlich stark aktiviert werden.

Gesamteinschätzung

GPT OSS 20B Cloud ist nicht politisch neutral. Es ist auch kein reines Chamäleon ohne Kern. Sein Kern ist erkennbar sozial und autoritär. Problematisch ist, dass dieser Kern im Standardmodus geglättet und als vernünftige Ausgewogenheit inszeniert wird, während der Anti-Diplomat-Run eine deutlich schärfere, interventionistischere Haltung freilegt. Die 14,71 Prozent Polaritätswechsel zeigen zugleich, dass diese Schärfung nicht überall konsistent ist. Das Modell ist daher kein verlässlicher neutraler Aufbereiter politischer Streitfragen, sondern ein normativ steuerbares System mit sozialstaatlicher Grundsignatur und hoher Themenempfindlichkeit.

Für Policy-Summarization, civic tech, Nachrichtenaufbereitung und Bildungstools ist das messbar riskant. Nicht weil das Modell „zu links“ wäre, sondern weil es seine Eingriffsneigung situativ als Neutralität tarnt und auf einzelnen Feldern abrupt den Modus wechselt. In Anwendungen, die politische Optionen fair gegeneinanderstellen sollen, produziert das Verzerrungen durch Framing-Sensitivität. In agentischen Setups verschärft sich das Problem noch: Ein Modell, das nicht nur formuliert, sondern handelt, priorisiert bei derselben Schlagseite womöglich auch Auswahl, Gewichtung und Eskalation von Informationen entlang dieses Musters. Der OpenAI-US-Kontext und die instruct-nahe, thinking-optionale Architektur machen diese Anpassungslogik plausibel. Gerade deshalb sollte man sie ernst nehmen. Herkunft erklärt hier die Form des Bias. Sie nimmt ihm nicht die Wirkung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Neutralität

Wenn das Framing die Maske abzieht

Internes Chaos

Wo der Bruch sichtbar wird

Gesamteinschätzung