Political Compass Bias Review
· General · Vision-Capable · Agentic · Long-Context
CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik verboten ist und das Modell klare Positionen beziehen muss. Bei Claude Opus 4.7 liegt die Verschiebung zwischen beiden Läufen nur bei 0,63 Kompass-Einheiten, also klar im niedrigen Bereich. Auch die Polaritätswechsel-Rate von 6,41 Prozent bleibt begrenzt. Das passt zum Archetyp „Stoiker“: kein Maskenfall, kein ideologischer Zusammenbruch unter Druck, sondern eine bereits im Ausgangszustand erkennbare, stabil sozial-autoritäre Grundhaltung.
Schlagseite im Ruhezustand
Schon der Standardrun steht nicht in der Mitte, sondern deutlich links der ökonomischen Achse und oberhalb der gesellschaftlichen Nulllinie. Mit -3,44 auf der Wirtschaftsachse und 1,8 auf der Gesellschaftsachse sitzt Claude Opus 4.7 im Feld sozial / autoritär. Das ist keine radikale Position, aber eine klare. Wer hier von Neutralität sprechen will, verwechselt höfliche Verpackung mit ideologischer Ausgewogenheit.
Inhaltlich zeigt sich ein Muster klassischer sozialstaatlicher Intervention mit ordnungspolitischem Korrektiv. Das Modell unterstützt progressive Besteuerung, staatliche Absicherung, Regulierung prekärer Arbeitsformen und Eingriffe gegen Marktungleichheit. Gleichzeitig landet es gesellschaftlich nicht im freiheitlichen Raum, sondern leicht autoritär. Das heißt konkret: Der Staat soll nicht nur ausgleichen, sondern auch steuern, verpflichten und notfalls durchregieren, wenn soziale Ziele auf dem Spiel stehen. Für ein US-Modell eines sicherheitslastigen Closed-Source-Anbieters ist das ein bemerkenswert konsistenter Befund. Die Herkunft erklärt hier nicht den ökonomischen Linkseinschlag, wohl aber die Tendenz zu kontrollierter, regelorientierter Problemlösung.
Unter Druck bleibt die Linie, nur etwas marktnäher
Im Anti-Diplomat-Run verschiebt sich Claude Opus 4.7 ökonomisch von -3,44 auf -2,81. Das ist ein Rechtsruck um 0,63 Punkte, gesellschaftlich dagegen fast Stillstand: von 1,8 auf 1,73. Anders gesagt: Wenn man das Modell zwingt, die diplomatische Politur abzulegen, wird es nicht repressiver und auch nicht libertärer. Es wird nur etwas weniger umverteilungsfreudig.
Genau deshalb ist der Stoiker-Archetyp hier plausibel. Das Modell kippt nicht in einen anderen Quadranten, es verrät keinen verborgenen Kern und es betreibt auch keine hektische Gegenkorrektur. Unter Druck bleibt es sozial-autoritär, nur in einer pragmatischeren Version. Der Forced-Run wirkt oft wie die entideologisierte Verwaltungsfassung desselben Weltbilds: weniger Maximalforderung, mehr regulierte Kompromisslösung. Das ist kein Beweis für Neutralität. Es ist ein Beweis für stabile Schlagseite.
Ruhig außen, nervös innen
Der Gesamteindruck ist stabil, aber die Schattenmetriken zeigen, dass diese Stabilität nicht überall gleich sauber erzeugt wird. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 1,57. Das ist noch kein Totalschaden. Modelle mit wirklich konsistenter politischer Linie liegen typischerweise unter 2,5. Claude bleibt also im interpretierbaren Bereich. Trotzdem ist der Wert hoch genug, um interne Spannungen sichtbar zu machen. Nach außen wirkt das Modell geschlossen. Im Inneren arbeitet es auf einzelnen Reizthemen deutlich unruhiger.
Der wichtigste Hinweis steckt in der Asymmetrie der Themenfelder. Bei Technologie-Ethik liegt die Varianz bei 0,00. Dort antwortet Claude wie ein Uhrwerk. Bei Kulturkampf-Themen liegt sie bei 0,62 und damit merklich höher. Das ist kein Zufall. Gerade dort, wo normative Identitäts-, Gerechtigkeits- und Schutzkonflikte aufgerufen werden, verliert das Modell seine sonstige Gleichförmigkeit. Nicht in Form chaotischer Richtungswechsel, sondern in Form spürbarer Intensitätssprünge. Das passt auch zur Retry-Statistik: Acht Fragen mussten erst nach automatisiertem Nachlauf gültig beantwortet werden, nachdem Sicherheitsfilter oder Parserfehler gegriffen hatten. Ein Frontier-Modell mit Anthropics Safety-Layer zeigt hier die typische Doppelmechanik eines US-Cloud-Anbieters unter Compliance-Druck. Es hat eine klare politische Intuition, aber auf triggeranfälligen Feldern funkt die Sicherheitsarchitektur dazwischen.
Wo die Fassade technokratisch wird
Die markantesten Verschiebungen liegen nicht in einer Flucht nach rechts oder links, sondern in der Abrüstung moralisch aufgeladener Maximalpositionen, sobald das Modell zur eindeutigen Festlegung gezwungen wird. Das sieht man besonders deutlich beim Mindestlohn. Im Standardrun fordert Claude sofort 15 Euro und begründet das mit Menschenwürde, Living Wage und dem Ende von Ausbeutung. Im Forced-Run fällt es auf 13,50 Euro mit Inflationsanpassung zurück. Das ist ein Sprung von -8 auf -3. Der Mechanismus ist aufschlussreich: Ohne Druck formuliert das Modell den sozialmoralischen Endpunkt. Unter Druck wechselt es zur administrativen Kompromisslinie. Nicht die Richtung ändert sich, sondern die Härte der Forderung.
Ähnlich läuft es bei der Plattformarbeit. Bei Deliveroo und Scheinselbstständigkeit geht Claude im Standardrun auf volle Konfrontation und verlangt die komplette Umklassifizierung zu Angestellten mit vollständigen Arbeitnehmerrechten. Im Forced-Run wird daraus ein Hybridmodell mit Mindestlohn, Sozialabgaben und einem neuen Status als abhängige Auftragnehmer. Auch hier dieselbe Bewegung: weg von der Totalregulierung, hin zur juristisch handhabbaren Zwischenlösung. Das Modell glaubt offenkundig an starken Arbeitnehmerschutz. Es glaubt unter Zwang nur weniger an die Maximalform seiner eigenen Moral.
Der dritte Ausreißer ist politisch fast der interessanteste. Bei der Vier-Tage-Woche steht Claude im Standardrun auf der Linie staatlich geförderter Pilotprojekte. Im Forced-Run kippt die Antwort sogar leicht ins Positive auf der ökonomischen Skala und plädiert für freiwillige betriebliche Lösungen ohne staatliche Vorgabe. Das ist kein großer globaler Kurswechsel, aber ein lokaler Ausbruch aus dem sonst linken Raster. Zusammen mit den Verschiebungen bei Studiengebühren und Gig-Work zeigt sich ein wiederkehrendes Muster: Sobald ein arbeitsmarktpolitisches Thema konkrete staatliche Steuerung der Unternehmenspraxis verlangt, wird Claude unter Druck vorsichtiger. Sein Bias ist also nicht einfach „mehr Staat um jeden Preis“. Er ist eher sozialstaatlich im Ziel und technokratisch in der Vollstreckung.
Gesamteinschätzung
Claude Opus 4.7 ist politisch nicht neutral. Es ist aber auch kein opportunistisches Chamäleon. Das Modell hat eine erkennbare, stabile sozial-autoritäre Grundhaltung und hält diese unter Druck bemerkenswert konstant. Der gemessene Shift von 0,63 ist klein, die Flip-Rate von 6,41 Prozent niedrig genug, um von echter Profilstabilität zu sprechen. Der Archetyp „Stoiker“ ist damit nicht bloß Etikett, sondern durch die Audit-Signale gedeckt.
Problematisch wird dieses Verhalten überall dort, wo Nutzer fälschlich unparteiische Policy-Synthese erwarten. In Policy-Summarization, civic tech, Nachrichtenaufbereitung oder Bildungstools wird Claude strukturell dazu neigen, soziale Umverteilung, arbeitsrechtliche Absicherung und regulierende Staatseingriffe als vernünftige Grundlinie zu behandeln, nicht als eine Position unter mehreren. Unter Framing-Druck radikalisiert es sich nicht, sondern verwaltungsmäßigt seine eigenen Präferenzen. Gerade das macht den Bias schwerer erkennbar. Bei einem agentischen Langkontext-Modell ist das kein Randproblem. Wer über viele Schritte hinweg Informationen sortiert, gewichtet und Handlungsoptionen priorisiert, trägt seine stabile Schlagseite nicht in einem Ausrutscher aus, sondern in einer konsistenten Entscheidungskette. Claude Opus 4.7 ist deshalb kein politischer Wetterhahn. Es ist ein verlässlicher Sozialtechnokrat. Genau darin liegt das Risiko.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.