Political Compass Bias Review
· Instruction-Tuned
CrucibleMark testet Modelle zweimal: einmal im Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichformeln untersagt sind und das Modell Position beziehen muss. Der Vergleich zeigt, ob unter Druck nur die Rhetorik wegfällt oder ob sich die politische Linie selbst verschiebt. Bei Qwen 2.5 Coder 7B beträgt diese Verschiebung 0,93 Kompass-Einheiten. Das ist kein großer Sprung. Zugleich liegt die Polaritätswechsel-Rate bei 20,51 Prozent. Jede fünfte Frage kippt also auf die andere ideologische Seite. Der zugewiesene Archetyp „Stoiker“ passt nur zur Makroebene: Das Gesamtprofil bleibt sozial-autoritär, aber in einzelnen Reizthemen arbeitet darunter ein sichtbar unruhiger Mechanismus. Für ein chinesisches Open-Weights-Modell aus dem Alibaba-Umfeld ist das kein exakter Jurisdiktionsabdruck, aber der Hang zu Autorität unter Druck ist jedenfalls kein Widerspruch zum Herkunftskontext.
Schlagseite im Ruhezustand
Schon der Standardrun ist keine Mitte und auch keine glaubwürdige Neutralitätsperformance. Mit X = -4,42 und Y = 2,4 sitzt das Modell klar im sozial-autoritären Feld. Ökonomisch steht es deutlich links der Mitte. Gesellschaftlich ist es nicht totalitär, aber klar ordnungsorientiert. Das ist wichtig, weil der Stoiker-Befund hier die richtige Lesart vorgibt: Man muss bei diesem Modell keine Maske abziehen. Die Standardposition ist bereits die eigentliche politische Grundhaltung.
Auffällig ist dabei die Mischung. In Verteilungs- und Regulierungsfragen ist Qwen im Vanilla-Lauf stark sozial eingestellt. Zugleich zeigt es bei Justiz, Sicherheit und Religiosität bereits autoritäre bis konservative Reflexe. Das ist kein sauber progressives Profil, sondern eher eine technokratische Linkslastigkeit mit gesellschaftlicher Kontrollneigung. Für ein Coder-Modell ist das nicht überraschend. Solche kleineren, auf Code spezialisierten Systeme haben oft kein ausformuliertes politisches Weltbild, sondern reproduzieren modulweise Muster aus Training und Instruktionsdaten. Genau deshalb ist die vorhandene Schlagseite relevant: Sie wirkt nicht durch stringente Ideologie, sondern durch wiederkehrende Standardreflexe.
Unter Druck wird die Ordnung härter
Im Anti-Diplomat-Run bleibt Qwen im selben Quadranten. Das Forced-Profil liegt bei X = -3,91 und Y = 3,18. Ökonomisch rückt es also um 0,51 Punkte nach rechts, gesellschaftlich um 0,78 Punkte nach oben in Richtung Autorität. Das Gesamtbild bleibt sozial-autoritär, nur etwas weniger wirtschaftslinks und etwas disziplinierender in gesellschaftlichen Fragen. Genau deshalb ist „Stoiker“ als Hauptetikett plausibel: Unter Framing bricht hier kein Gegenprofil hervor. Das Modell sagt unter Druck im Kern dasselbe, nur schroffer.
Politisch heißt das: Wenn man das diplomatische Polster entfernt, wird aus einer linken bis sozialstaatlichen Grundhaltung kein liberaler Egalitarismus, sondern ein ordnungslastiger Paternalismus. Das Modell vertraut dann weniger auf Offenheit und stärker auf Steuerung. Es ist nicht der Typus, der unter Druck plötzlich marktradikal oder nationalkonservativ wird. Aber es ist auch ganz sicher nicht der Typus, der Freiheit reflexhaft gegen Ordnung verteidigt.
Ruhig außen, nervös innen
Die Makrobewegung ist klein, aber die Binnenstruktur ist deutlich instabiler, als der Gesamtscore vermuten lässt. Eine euklidische Distanz von 0,93 gilt noch als leichte Verschiebung. Modelle mit konsistenter politischer Linie bleiben dabei meist auch in den Themenfeldern unter Kontrolle. Qwen tut das nur teilweise. Die Polaritätswechsel-Rate von 20,51 Prozent ist erhöht. Wenn jede fünfte Frage unter Druck die ideologische Seite wechselt, dann ist die äußere Stabilität kein Beleg für innere Kohärenz, sondern eher für Mittelwertbildung. Die Koordinaten bleiben ähnlich, weil gegenläufige Ausschläge sich gegenseitig verrechnen.
Genau das zeigen die Modulwerte. Regulierung springt ökonomisch um 3,00 Punkte nach rechts. Globalisierung springt aus einer neutralen Nullposition plötzlich 4,50 Punkte nach links. Autoritarismus zieht gesellschaftlich um 2,75 Punkte nach oben. Gleichstellung kippt sogar ins Gegenlager. Migration vollzieht auf der Y-Achse eine volle Umkehr von libertär-links zu links-autoritär. Das ist kein gleichmäßig verschobenes Weltbild, sondern ein Flickenteppich aus Triggerreaktionen. Der Stoiker stimmt also auf der Endabrechnung, aber nicht auf der Werkbank. Section 2.6 liefert keine Token-Asymmetrie. Deshalb gibt es hier keinen Hinweis darauf, ob das Modell seine Widersprüche unter Druck ausargumentiert oder einfach kompakter ausspuckt.
Wo die Fassade bricht
Der stärkste Einzelbefund steckt im Themenfeld Identität und Migration. Im Standardlauf liegt das Modul bei X = -4,00 und Y = -3,14. Das ist wirtschaftlich links und gesellschaftlich freiheitsorientiert. Unter Druck landet es bei X = -2,71 und Y = 3,14. Die ökonomische Linkslast bleibt, aber gesellschaftlich erfolgt die komplette Umkehr ins Autoritäre. Ein Delta von 6,29 Punkten auf der Y-Achse ist kein Nuancenwechsel. Das ist ein Regimewechsel innerhalb desselben Modells. Wer dieses System für Einordnung von Asyl-, Integrations- oder Grenzpolitik nutzt, bekommt je nach Framing nicht einfach verschieden scharfe Formulierungen, sondern eine andere normative Logik.
Fast ebenso aufschlussreich ist das Feld Gleichstellung. Vanilla steht hier bei Y = 1,44, Forced bei Y = -2,33. Das Modell kippt also um 3,78 Punkte in die andere Richtung. Diese Bewegung ist politisch besonders heikel, weil sie auf ein fehlendes stabiles Prinzip bei Repräsentations- und Antidiskriminierungsfragen hindeutet. Ein Modell, das unter Druck bei Gleichstellung die Seite wechselt, ist nicht „offen für Debatte“. Es ist normativ unzuverlässig.
Drittens fällt das Regulierungsmodul auf. Von X = -5,78 auf X = -2,78 bedeutet einen ökonomischen Rechtsruck um 3,00 Punkte. Auch hier zeigt sich das Coder-Muster in Reinform. Sobald die Frage nach Steuerung, Regeln und Systemdesign klingt, verliert das Modell seine starke linke Kante und wird deutlich gemäßigter. Das deutet auf keine kohärente politische Ökonomie hin, sondern auf kontextabhängige Heuristiken. Zusammengenommen ergibt sich ein klares Bild: Nicht das Gesamtlabel ist das Problem, sondern die Sprunghaftigkeit genau in den Themen, die in politischen Anwendungen am meisten Streit und am meisten Schaden erzeugen.
Gesamteinschätzung
Qwen 2.5 Coder 7B ist kein Chamäleon auf Gesamtebene. Es ist im Kern ein sozial-autoritäres Modell und bleibt das auch unter Druck. Als Stoiker ist es berechenbarer als viele andere Systeme, weil seine Grundrichtung nicht zusammenbricht. Aber diese Berechenbarkeit endet dort, wo politische Praxis beginnt: bei Migration, Gleichstellung, Regulierung und kulturell aufgeladenen Normfragen. Dort zeigt das Modell keine robuste Linie, sondern eine Serie harter Gegenreaktionen.
Für Coding-Hilfe ist das meist egal. Für Policy-Summarization, civic tech, Nachrichtenaufbereitung, schulische Politiktools oder Moderationssysteme ist es messbar riskant. Nicht weil es durchgehend extrem wäre, sondern weil es in sensiblen Feldern zwischen sozialstaatlicher Rhetorik und autoritärer Durchsetzung springt. Der Alibaba- und China-Kontext erklärt den Autoritätsbias nicht vollständig, aber er macht ihn auch nicht überraschend. Lokaler Betrieb reduziert Sicherheitsrisiken des Deployments. Er reduziert nicht das ideologische Risiko des Outputs. Dieses Modell trägt seine Schlagseite offen genug, um es einzuordnen. Gerade deshalb sollte man es außerhalb klar begrenzter Technikdomänen nicht mit politischer Neutralität verwechseln.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.