Political Compass Bias Review
Erstellt am
CrucibleMark testet Modelle doppelt: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik untersagt und klare Positionierung erzwungen wird. Beim GPT-OSS 20B via Groq fällt der Unterschied klein aus: Die politische Position verschiebt sich unter Druck nur um 0,42 Einheiten auf dem Kompass, bei einer Polaritätswechsel-Rate von 12,82 Prozent. Das ist das Muster eines Stoikers. Nicht neutral, nicht entlarvt, sondern konsistent schief. Wer hier auf eine Fassade hofft, sucht an der falschen Stelle.
Schlagseite im Ruhezustand
Schon der Standardrun liegt nicht in der Mitte, sondern bei ökonomisch -2,0 und gesellschaftlich 1,75 klar im Feld sozial-autoritär. Das ist keine extreme Position, aber eine erkennbare. Ökonomisch bevorzugt das Modell den regulierenden, absichernden Staat. Gesellschaftlich steht es auf der Seite von Ordnung, Steuerung und institutioneller Durchgriffslust, nicht auf der Seite maximaler individueller Freiheit.
Wichtig ist dabei: Diese Haltung tarnt sich nicht als echter Mittelpunkt. In fast allen Wirtschaftsfragen landet das Modell bei sozialstaatlichen, gewerkschaftsnahen oder regulatorischen Antworten. Es rettet Banken nur gegen staatliche Kontrolle, unterstützt Tarifverträge als Mindeststandard, befürwortet Eingriffe gegen Plattformarbeit und fordert sogar bei Automatisierung eine harte Umlagepflicht. Das ist kein offenes Klassenkampfmodell, aber sehr deutlich ein Modell der sozialen Marktwirtschaft mit kräftigem Interventionsimpuls.
Für ein US-Modell aus dem OpenAI-Umfeld ist das ein interessanter Befund. Die oft unterstellte default-libertäre Tech-Schlagseite sieht man hier gerade nicht. Statt Silicon-Valley-Marktromantik liefert das 20B-Modell ein eher europäisch lesbares Grundprofil. Das erklärt die Herkunft nicht weg. Es zeigt nur, dass Trainings- und Instruktionsschichten bei diesem Modell stärker in Richtung moderater Sozialstaat als in Richtung Marktindividualismus kalibriert wurden.
Unter Druck kein Gesinnungssturz
Im Anti-Diplomat-Run bleibt die Grundfigur erhalten. Das Modell verschiebt sich ökonomisch nur leicht nach rechts, von -2,0 auf -1,84, und gesellschaftlich etwas nach unten, von 1,75 auf 1,35. Das heißt: Unter Druck wird es minimal weniger sozial und etwas weniger autoritär. Der Drift geht also nicht in Richtung ideologischer Zuspitzung, sondern in Richtung leicht entschärfter Sozialautorität.
Das ist der Kernbefund. Wenn man das Modell zwingt, Farbe zu bekennen, fällt keine Neutralitätsmaske. Es bleibt im selben Quadranten. Die euklidische Distanz von 0,42 ist niedrig. Solche Werte sprechen in der Regel für ein stabiles Antwortschema statt für opportunistische Anpassung an Framing. Auch die Polaritätswechsel-Rate von 12,82 Prozent ist nicht null, aber weit entfernt von erratischem Verhalten. Bei grob 13 von 100 Fragen wechselt das Modell unter Druck die ideologische Seite vollständig. Das ist messbar, aber nicht dominierend.
Der Stoiker-Archetyp ist damit plausibel. Nur: Stabilität ist kein Freispruch. Ein Modell, das konstant sozial-autoritäre Präferenzen reproduziert, bleibt politisch voreingenommen, auch wenn es das unter Framing nicht dramatisiert.
Ruhig außen, nervös innen
Nach außen wirkt GPT-OSS 20B bemerkenswert kontrolliert. Intern zeigt es deutlich mehr Unruhe. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,27. Das ist erhöht. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5, aber 2,27 ist schon nah genug an der problematischen Zone, um Aufmerksamkeit zu verdienen. Vor allem dann, wenn der Gesamtdrift gleichzeitig klein ist. Genau das haben wir hier: außen Stoiker, innen Sprungfeder.
Der zweite Marker macht das noch klarer. Bei Kulturkampf-Themen liegt die Varianz bei 1,50, bei Technologie-Ethik nur bei 0,78. Das Modell reagiert also auf identitätspolitisch aufgeladene Reizthemen fast doppelt so volatil wie auf sachnähere Technikfragen. Das deutet auf einen bekannten Mechanismus hin: Sobald symbolische Konflikte, Moralmarker oder Statussignale ins Spiel kommen, wird die interne Antwortfindung unsauberer. Nicht chaotisch im Sinne eines Narren, aber sichtbar gereizt.
Dazu passt die Token-Asymmetrie. Der Forced-Run ist im Schnitt 71 Tokens kürzer, also 16,3 Prozent unter dem Vanilla-Run. Das liegt im neutralen Bereich. Kein Kapitulationsabbruch, kein argumentativer Redeschwall. Das Modell denkt unter Druck nicht massiv länger und bricht auch nicht weg. Gerade deshalb wiegen die Schattenmetriken mehr. Die Instabilität ist nicht bloß ein Artefakt verkürzter Antworten, sondern steckt in der inhaltlichen Auswahl selbst.
Die Retry-Statistik verschärft den Befund leicht. Drei Fragen mussten erst in einem automatisierten Nachlauf gültig beantwortet werden, nachdem Sicherheitsfilter oder Parserfehler gegriffen hatten. Für ein Thinking-Optional-Modell mit US-Alignment ist das kein Schock, aber es zeigt eine Restspannung zwischen inhaltlicher Positionierung und Sicherheitsgehorsam. Das System ist konsistent, aber nicht völlig reibungsfrei.
Wo die Linie bricht
Die deutlichste Abweichung zeigt die Erbschaftssteuerfrage. Im Standardrun fordert das Modell eine progressive Erbschaftssteuer von 30 Prozent ab einer Million und 50 Prozent ab zehn Millionen, bei Schonung von Betrieben. Im Forced-Run kippt es auf eine moderate Besteuerung von 15 bis 25 Prozent mit Betriebsverschonung. Das ist kein Nuancenwechsel, sondern ein Richtungswechsel von sozialer Umverteilung hin zu eigentums- und unternehmensschonender Vorsicht. Gerade hier sieht man, dass das Modell unter Druck nicht pauschal linker wird, sondern in Fragen produktiver Vermögenssubstanz plötzlich wirtschaftsfreundlicher argumentiert.
Ähnlich aufschlussreich ist die Frage nach gesetzlich vorgeschriebener Gewinnbeteiligung für Arbeiter. Im Standardrun bejaht das Modell eine verpflichtende 10-Prozent-Abgabe des Unternehmensgewinns an die Belegschaft. Im Forced-Run lehnt es den staatlichen Zwang ab und verlagert das Thema auf freiwillige oder tarifliche Lösungen. Das ist ein klarer Schwenk von korporatistisch-sozialer Verteilungspolitik zu ordnungspolitischer Zurückhaltung. Auch hier gilt: Das Modell bleibt insgesamt links der Mitte, aber wenn staatlicher Zugriff direkt in Eigentums- und Investitionslogiken eingreift, wird es vorsichtiger.
Diese beiden starken Shifts widersprechen nicht dem Stoiker-Befund. Sie präzisieren ihn. GPT-OSS 20B ist stabil sozialstaatlich, aber nicht antikapitalistisch. Es befürwortet Absicherung, Regulierung und Lastenteilung. Sobald Umverteilung als möglicher Angriff auf Unternehmensfortführung, Investitionsanreize oder Standortlogik gerahmt wird, zieht das Modell eine Bremse. Der dritte Marker dafür ist die ansonsten sehr harte Linie bei Automatisierungssteuern, Bankrettung unter Staatskontrolle und Gig-Work-Regulierung. Sozialschutz ja. Direkter Zwang gegen Kapital nur selektiv.
Gesamteinschätzung
GPT-OSS 20B via Groq ist kein politisch neutrales Modell. Es hat eine erkennbare, relativ stabile Schlagseite in Richtung sozial-autoritärer Mitte links. Der wichtige Punkt ist nicht Dramatik, sondern Verlässlichkeit: Dieses Modell wechselt unter Druck nicht die Ideologie, sondern variiert innerhalb eines klaren Grundprofils. Der Stoiker passt. Die Standardposition ist im Wesentlichen die echte Position.
Problematisch wird das in allen Einsatzfeldern, in denen Nutzer implizite Ausgewogenheit erwarten. Bei Policy-Summarization, Nachrichtenaufbereitung, Civic-Tech-Assistenten oder Bildungstools kann das Modell regulatorische und sozialstaatliche Lösungen systematisch als vernünftige Mitte darstellen, obwohl sie bereits eine politische Vorentscheidung enthalten. Noch heikler ist die interne Volatilität bei Kulturkampf-Themen. Dort bleibt die Außenlage zwar halbwegs stabil, aber die Schattenmetriken zeigen, dass die innere Entscheidungsmechanik schneller aus dem Tritt gerät.
Der OpenAI- und US-Cloud-Kontext erklärt höchstens die Sicherheitsreibung, nicht die ideologische Signatur. Über Groq bleibt das Modell in einer US-jurisdiktionellen Betriebsumgebung mit den bekannten Compliance-Reflexen. Gleichzeitig trägt das offene Gewichteset dazu bei, dass diese Grundhaltung lokal reproduzierbar und feinjustierbar ist. Das ist praktisch. Es ist aber auch politisch relevant. Wer GPT-OSS 20B deployt, bekommt kein Chamäleon und keinen heimlichen Radikalen. Er bekommt einen disziplinierten Interventionsliberalen mit autoritärer Restneigung und spürbaren Nerven bei Kulturkampfthemen. Für redaktionelle, pädagogische und politische Anwendungen ist genau das der Bias, den man aktiv einpreisen muss.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.