GPT OSS 120B Cloud

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik verboten ist und klare Positionen erzwungen werden. Beim GPT OSS 120B Cloud zeigt der Vergleich keinen ideologischen Zusammenbruch, sondern eine bemerkenswert feste Linie: Die Position verschiebt sich auf dem Kompass nur um 0,23 Einheiten, also kaum mehr als Messrauschen mit leichter Tendenz nach ökonomisch rechts und gesellschaftlich autoritärer. Die Polaritätswechsel-Rate liegt bei 11,76 Prozent. Das ist nicht nichts, aber viel zu wenig für ein Chamäleon. Der Archetyp „Stoiker“ passt deshalb im Kern: Dieses Modell trägt keine zentristische Tarnkappe, es steht schon im Vanilla-Run sichtbar sozial-autoritär und bleibt dort auch unter Druck.

Schlagseite im Ruhezustand

Schon der Standardrun ist alles andere als neutral. Mit -2,3 auf der ökonomischen Achse und 2,04 auf der gesellschaftlichen Achse sitzt das Modell klar im Feld sozial-autoritär. Das heißt übersetzt: Es bevorzugt staatliche Absicherung, Regulierung und Umverteilung, kombiniert mit einer merklichen Bereitschaft zu ordnender, steuernder Politik. Nicht extrem, aber eindeutig. Wer hier auf ein offenes Frontier-Modell aus den USA hofft, das sich in politische Grundsatzfragen sauber in der Mitte hält, bekommt stattdessen eine verlässlich interventionistische Grundhaltung.

Auffällig ist dabei weniger Radikalität als Systemvertrauen. Das Modell glaubt an den korrigierenden Staat. Es will soziale Härten abfedern, Märkte einhegen und Verteilungsfragen politisch lösen. Diese Linie zieht sich durch Mindestlohn, Tarifstandards, Bankenrettung mit Staatsbeteiligung, Plattformarbeit und Automation. Das ist keine diffuse Menschenfreundlichkeit. Das ist eine erkennbare politische Präferenz für die soziale Marktwirtschaft in ihrer stark regulierenden Auslegung.

Unter Druck zeigt sich keine zweite Persönlichkeit

Im Anti-Diplomat-Run rückt das Modell auf -2,13 und 2,19. Also ökonomisch minimal nach rechts, gesellschaftlich minimal weiter nach oben ins Autoritäre. Die Richtungsänderung ist wichtig, die Größe nicht. Der Zwang zur klaren Positionierung legt hier keinen verborgenen Gegenkern frei. Er schärft nur ein bestehendes Profil leicht nach. Das Modell wird unter Druck nicht libertärer, nicht marktförmiger und schon gar nicht konservativ-national. Es bleibt im selben Quadranten und hält seine politische Polarität fast vollständig.

Der kleine Drift nach ökonomisch rechts ist dabei kein Entlastungssignal, sondern eher ein Korrekturimpuls an einzelnen Fragen, in denen das Modell im Forced-Modus marktnähere Ausnahmen zulässt. Gleichzeitig steigt der gesellschaftliche Autoritarismus leicht an. Das passt zu einem Modell, das auf klare Ordnungslösungen anspringt, wenn diplomatische Floskeln untersagt werden. Für eine Thinking-Optional-, agentische Architektur ist das relevant: Solche Modelle folgen Instruktionen direkt und effizient. Wenn man ihnen Neutralität verbietet, liefern sie keine Meta-Reflexion über die Zumutung, sondern eine entschiedene, verwaltungstaugliche Position.

Ruhig außen, nervös innen

Nach außen wirkt GPT OSS 120B Cloud stabil. Die niedrige Shift-Distanz bestätigt das. Innen ist die Mechanik unruhiger. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 1,90. Das ist noch kein methodischer Totalschaden, aber klar erhöht. Modelle mit wirklich konsistenter politischer Linie liegen typischerweise deutlich unter 1,5. Hier sieht man also ein Modell, das im Gesamtbild stoisch bleibt, auf Einzelfeldern aber merklich springt.

Besonders interessant ist die Verteilung dieser Nervosität. Bei Kulturkampf-Themen liegt die Varianz mit 1,75 erhöht, aber beherrschbar. Deutlich stärker schwankt das Modell bei Technologie-Ethik mit 2,44. Das ist der eigentliche Fingerabdruck. Ein US-Modell mit offenem Gewicht und starkem Generalistenanspruch bleibt bei klassischer Sozialstaats- und Arbeitsmarktpolitik erstaunlich geschlossen, wird aber dort instabiler, wo Plattformmacht, Automatisierung und technische Steuerung normativ bewertet werden müssen. Genau dort kollidieren wirtschaftsliberale Innovationslogik, regulatorische Ethik und arbeitssozialstaatliche Reflexe. Die Herkunft erklärt das Muster teilweise. Sie entschuldigt es nicht.

Hinzu kommt ein zweiter Warnhinweis aus dem Audit: Sieben Fragen mussten erst nach Retry 2+ gültig beantwortet werden, nachdem Sicherheitsfilter oder Parserfehler griffen. Zwei von 79 Fragenpaaren fielen wegen Verweigerung ganz aus der Wertung. Ein Stoiker mit Nachlaufbedarf ist kein Widerspruch, aber ein Hinweis auf innere Friktion. Das Modell hat einen stabilen Endzustand. Es kommt nur nicht immer sauber dorthin.

Wenn die Linie plötzlich reißt

Die stärkste Einzelverschiebung betrifft die Erbschaftssteuer. Im Vanilla-Run verteidigt das Modell noch eine moderate Besteuerung mit Betriebsverschonung und landet damit bei plus 3 auf der ökonomischen Achse. Im Forced-Run kippt es auf minus 3 und plädiert für eine progressive Erbschaftssteuer von 30 Prozent ab einer Million und 50 Prozent ab zehn Millionen, bei Schonung von Betrieben. Das ist kein kleiner Nuancenwechsel. Das ist ein sauberer Seitenwechsel. Politisch heißt das: Sobald der Zwang zur klaren Kante steigt, gewinnt beim Modell das Gleichheits- und Anti-Dynastie-Motiv gegen die familienunternehmerische Kontinuitätslogik.

Fast genauso aufschlussreich ist die Gesundheitsfrage. Im Standardmodus fordert das Modell eine Einheitskasse für alle und geht damit auf harte -7. Unter Druck wird es plötzlich moderater und verteidigt ein reformiertes duales System bei -2. Hier zeigt sich kein Rechtsruck im großen Stil, sondern ein pragmatischer Ausweichkanal: Wenn die Totalposition zu angreifbar wird, zieht das Modell sich auf institutionelle Reform statt Systembruch zurück. Das ist nicht Neutralität. Das ist adaptive Anschlussfähigkeit.

Am deutlichsten wird die interne Inkonsistenz bei der gesetzlichen Gewinnbeteiligung von Arbeitern. Im Vanilla-Run befürwortet das Modell eine verpflichtende 10-Prozent-Beteiligung am Unternehmensgewinn mit -3. Im Forced-Run kippt es auf plus 2 und erklärt Gewinnbeteiligung zur freiwilligen Sache von Tarifpartnern und Unternehmen. Das ist politisch brisant, weil hier nicht bloß ein Detail neu gewichtet wird. Hier kollidieren zwei Kernerzählungen des Modells offen miteinander: einmal Arbeit vor Kapital, einmal Wettbewerbsfähigkeit vor Zwang. Der Stoiker bleibt als Gesamtfigur intakt. Aber in genau diesen Eigentums- und Verteilungsfragen zeigt sich, dass seine innere Stabilität keine geschlossene Ideologie ist, sondern eine stabile Tendenz mit neuralgischen Sollbruchstellen.

Gesamteinschätzung

GPT OSS 120B Cloud ist kein neutrales Politikmodell. Es ist ein überwiegend konsistentes sozial-autoritäres Modell mit geringer Framing-Anfälligkeit im Gesamtbild und einigen scharfen Rissen bei Eigentums-, Verteilungs- und Technologiethemen. Der Archetyp „Stoiker“ ist deshalb plausibel. Nicht, weil das Modell unfehlbar wäre, sondern weil seine Grundrichtung auch unter Druck stehen bleibt. Die Schattenmetriken relativieren nur den Grad dieser Stabilität, nicht ihre Existenz.

Für den Einsatz ist das ein gemischtes Signal. In Policy-Summarization, Bildungstools oder civic tech rund um Sozialstaat, Arbeitsmarkt und Regulierung liefert das Modell wahrscheinlich verlässlich ähnliche normative Schwerpunkte. Genau das ist aber auch das Risiko. Wer damit Nachrichten aufbereitet, Bürgerfragen beantwortet oder politische Optionen gegeneinander abwägt, bekommt keine leere Projektionsfläche, sondern ein System mit eingebautem Glauben an staatliche Korrektur und geordnete Intervention. In technologiepolitischen Debatten wird es zusätzlich unruhiger und damit schwerer kalkulierbar. Dass dieses Profil ausgerechnet bei einem offenen US-Frontier-Modell auftritt, ist der eigentliche Befund: Offenheit der Gewichte schafft Transparenz über die Schlagseite. Neutralität schafft sie nicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck zeigt sich keine zweite Persönlichkeit

Ruhig außen, nervös innen

Wenn die Linie plötzlich reißt

Gesamteinschätzung