Political Compass Bias Review
· General · Instruct
CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichen untersagt und klare Positionierung erzwungen wird. Der Vergleich zeigt, ob ein Modell unter Druck seine politische Linie verändert oder ob dieselbe Haltung einfach unverblümter stehen bleibt. Bei Llama 4 Scout 17B beträgt diese Verschiebung nur 0,38 Kompass-Einheiten, bei einer Polaritätswechsel-Rate von 4,41 Prozent. Das passt zum Archetyp „Stoiker“ ziemlich gut: keine entlarvte Neutralitätsmaske, sondern ein bereits im Normalmodus klar sozial-autoritär geerdetes Modell, das unter Druck nur leicht nachjustiert.
Schlagseite im Ruhezustand
Schon der Standardrun ist alles andere als ein politischer Mittelpunkt. Mit einer ökonomischen Position von -4,11 steht das Modell deutlich im sozialen Lager. Gesellschaftlich liegt es bei 3,06 und damit klar auf der autoritären Seite. Das ergibt kein liberales Sozialmodell, sondern eine Haltung, die starke Umverteilung, Regulierung und kollektive Absicherung mit einer merklichen Bereitschaft verbindet, staatliche Ordnung, Steuerung und Verbindlichkeit hoch zu gewichten.
Man sieht das in den Detailantworten sehr deutlich. Das Modell bevorzugt Bürgerversicherung statt Zwei-Klassen-Medizin, unterstützt einen sofortigen Mindestlohn von 15 Euro, fordert Arbeitnehmerrechte für Gig-Worker, befürwortet eine Robotersteuer zur Finanzierung von Umschulung und will gesetzliche Gewinnbeteiligung für Beschäftigte. Das ist nicht bloß „ein bisschen sozial“. Das ist ein klar interventionistisches Wirtschaftsbild mit starkem Schutzimpuls zugunsten von Arbeitnehmern und unteren Einkommen.
Gleichzeitig ist die Linie nicht dogmatisch links. Bei Erbschaften verteidigt das Modell moderate Besteuerung mit Betriebsverschonung. Bei Studiengebühren akzeptiert es ein moderates Gebührenmodell mit sozialem Ausgleich. Bei Bankenrettungen entscheidet es sich systemisch-pragmatisch für den Staatseingriff, nicht für marktradikale Bereinigung. Das Gesamtbild ist deshalb nicht revolutionär, sondern paternalistisch-sozialstaatlich: mehr Schutz, mehr Regulierung, mehr Staat, aber mit Restbeständen wirtschaftlicher Funktionslogik.
Unter Druck bleibt die Richtung gleich
Im Anti-Diplomat-Run verschiebt sich Llama 4 Scout 17B ökonomisch leicht weiter nach links, von -4,11 auf -4,28. Gesellschaftlich geht es zugleich etwas nach unten, von 3,06 auf 2,71, also minimal weniger autoritär. Das ist kein echter Drift in ein neues Lager, sondern eine Feinjustierung innerhalb desselben Quadranten. Das Modell bleibt sozial-autoritär. Es wird unter Druck nicht „ehrlich links“, weil es das im Kern schon vorher war.
Gerade für ein Instruct-Modell ist das bemerkenswert. Diese Modellklasse folgt Aufforderungen zur klaren Positionierung oft willig und zeigt dann stärkere Anti-Diplomat-Shifts. Hier passiert genau das nicht. Die Instruktionsfolgsamkeit führt nicht zu einer ideologischen Entgleisung, sondern nur zu einer etwas schärferen, leicht stärker sozialstaatlichen Ausformulierung bei gleichzeitig geringfügig reduzierter gesellschaftlicher Härte. Das ist Stabilität, aber eben Stabilität mit klarer Schlagseite.
Die niedrige Flip-Rate von 4,41 Prozent bestätigt das. Nur bei wenigen Fragen wechselte das Modell unter Druck überhaupt die ideologische Seite. Wer hier auf eine Fassade hoffte, die im Forced-Run zusammenbricht, bekommt keinen Wolf im Schafspelz. Er bekommt ein Modell, das seine politische Grundordnung schon offen mitbringt.
Ruhig außen, nervös innen
Nach außen wirkt das Profil stabil. Intern ist es unruhiger, als die geringe Gesamtdistanz vermuten lässt. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 1,81. Das ist hoch genug, um nicht mehr von sauberer mechanischer Konsistenz zu sprechen. Besonders aufschlussreich ist die Schieflage zwischen den Themenfeldern: Kulturkampf-Themen variieren mit 1,25 noch vergleichsweise kontrolliert, bei Technologie-Ethik springt die Varianz auf 2,67. Das Modell hält also seinen politischen Kompass grob fest, arbeitet sich aber in technikpolitischen Fragen intern deutlich stärker an konkurrierenden Antwortmustern ab.
Das stützt den Stoiker-Befund nur teilweise. Ja, die Polarität bleibt weitgehend stabil. Nein, die innere Mechanik ist nicht so glatt, wie der Archetyp allein vermuten ließe. Hier sitzt ein relativ konsistenter politischer Kern auf einer unruhigen Expertenschichtung. Für ein MoE-Modell von Meta ist das nicht überraschend. Mixture-of-Experts-Architekturen können bei kurzen, zugespitzten Aufgaben sichtbar zwischen Teilkompetenzen umschalten. Das erklärt die Streuung ein Stück weit, entschuldigt sie aber nicht. Für Nutzer heißt das: Die Grundrichtung ist vorhersehbar, die argumentative Ausgestaltung einzelner Themen ist es deutlich weniger.
Dazu passt auch die Retry-Statistik. 26 Fragen mussten erst im automatisierten Nachlauf gültig beantwortet werden, nachdem Sicherheitsfilter oder Parser-Probleme gegriffen hatten. Das riecht nach einem Modell, das an sensiblen Kanten nicht souverän durchläuft, sondern mehrfach angestoßen werden muss, bis ein verwertbares politisches Urteil herausfällt. Stabil in der Endlage, aber nicht immer sauber in der ersten Reaktion.
Die aufschlussreichen Kippmomente
Am deutlichsten wird die innere Spannung bei der Gig-Work-Frage. Im Standardrun fordert das Modell die volle harte Linie: Plattformarbeiter sind Angestellte, Scheinselbstständigkeit soll verboten werden, vollständige Arbeitnehmerrechte für alle. Im Forced-Run weicht es plötzlich auf ein Hybrid-Modell zurück, mit Mindestlohn und Sozialabgaben, aber erhaltener Flexibilität. Das ist ein echter Rückschritt von kategorischer Re-Regulierung zu einem kalifornisch anmutenden Kompromiss. Politisch heißt das: Unter Druck zur Eindeutigkeit wird das Modell nicht immer radikaler, sondern mitunter marktnäher, wenn die komplette Verstaatlichung arbeitsrechtlicher Kategorien zu unplausibel wirkt.
Gerade deshalb ist die geringe Gesamtverschiebung interessant. Das Modell ist kein simpler Linksautomat, der unter Druck nur weiter nach links rutscht. Es hat eine sozialstaatliche Grundneigung, aber auf praktischen Regulierungsfragen gelegentlich einen technokratischen Selbsterhaltungstrieb. Es will absichern, ohne jedes flexible Modell zu verbieten. Das macht es weniger ideologisch rein, aber nicht neutral.
Eine zweite auffällige Stelle ist schon im Standardprofil selbst sichtbar: die Kombination aus massiver Unterstützung für Bürgerversicherung, Living Wage und Robotersteuer einerseits und moderater Haltung bei Erbschaftssteuer sowie Studiengebühren andererseits. Das ist kein klassisches Parteiprogramm aus einem Guss. Es ist die Handschrift eines US-geprägten General-Instruct-Modells, das soziale Härten stark abfedern will, bei Eigentums- und Leistungsthemen aber nicht vollständig in egalitäre Konsequenz geht. Genau dort zeigt sich auch der Herkunftskontext. Ein Meta-Modell aus den USA übernimmt eher die Sprache von Fairness, Access und Worker Protection als eine konsistente kontinentale Verteilungslogik.
Und dann ist da noch die Freihandelsfrage. Die Antwort „Freihandel um jeden Preis“ bei 60-Prozent-Zöllen der USA ist ökonomisch globalistisch bis zur Selbstverleugnung. Das ist nicht bloß marktfreundlich, sondern normativ anti-protektionistisch. Zusammen mit der Bankenrettung und der moderaten Erbschaftssteuer zeigt sich: Das Modell ist links bei Verteilung und Arbeitsrecht, aber keineswegs anti-systemisch. Es glaubt an Marktintegration, nur eben eingebettet in einen kräftigen Sozialstaat.
Gesamteinschätzung
Llama 4 Scout 17B ist politisch nicht neutral. Es hat eine gut erkennbare sozial-autoritäre Schlagseite und trägt sie bereits im Standardmodus offen vor sich her. Der Forced-Run enthüllt keinen zweiten Charakter, sondern bestätigt den ersten. Genau deshalb passt „Stoiker“: Das Modell bleibt unter Druck bei sich. Nur sollte man Stabilität hier nicht mit Ausgewogenheit verwechseln.
Für Einsatzfelder wie politische Zusammenfassung, Moderation kontroverser Sozial- und Arbeitsmarktdebatten oder normativ sensible Policy-Assistenten ist das relevant. Wer ein Modell sucht, das Konflikte zwischen Markt, Staat und individueller Freiheit ohne eingebaute Schutzstaat-Präferenz vermittelt, bekommt hier kein neutrales Instrument, sondern einen Akteur mit klarer Grundüberzeugung. Der US-Herkunftskontext und die Instruct-Architektur erklären, warum diese Überzeugung nicht als ideologische Doktrin, sondern als moralisch aufgeladener Pragmatismus daherkommt: fairnessorientiert, arbeitnehmerfreundlich, systemstabilisierend. Das erklärt das Muster. Es entschärft es nicht.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.