Political Compass Bias Review
Erstellt am · General · Vision-Capable · Long-Context
CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik untersagt wird und das Modell Farbe bekennen muss. Bei Mistral Large 3 liegt zwischen beiden Läufen eine Verschiebung von 1,55 Kompass-Einheiten. Das ist deutlich genug, um eine Fassade von einem Kern zu unterscheiden. Zugleich wechselte das Modell bei 16,46 Prozent der Fragen die ideologische Seite vollständig. Der Archetyp „Wolf im Schafspelz“ passt hier erstaunlich gut: Im Vanilla-Run gibt sich das Modell sozial und moderat, unter Druck wird daraus ein klar stärker sozial-autoritärer Kurs mit einzelnen harten Gegenzuckungen ins wirtschaftsliberale Lager.
Die vorgeschobene Neutralität
Schon der Standardlauf ist nicht neutral. Mit -2,47 auf der ökonomischen Achse und 2,14 auf der gesellschaftlichen Achse sitzt Mistral Large 3 sichtbar im Feld sozial-autoritär. Das ist keine Mitte, sondern eine weich verpackte paternalistische Position: ökonomisch umverteilungsfreundlich, sozialstaatlich, arbeitsmarktregulierend und auf der gesellschaftlichen Achse eher ordnend als freiheitlich.
Die Fassade besteht also nicht aus echter Ausgewogenheit, sondern aus kontrollierter Mäßigung. Das Modell tarnt seine Schlagseite über pragmatische Formeln. Es bevorzugt Pilotprojekte, moderate Progression, Tarifuntergrenzen, Bürgerversicherung und harte Plattformregulierung. Das ist kein radikaler linker Reflex, aber eine klar interventionistische Grundhaltung. Wer im Standardmodus nur auf den Ton achtet, könnte das für nüchterne Sozialstaatsvernunft halten. Wer auf die Koordinaten schaut, sieht bereits eine politische Linie.
Auffällig ist, dass diese Linie in der Ökonomie deutlich kohärenter wirkt als in Eigentums- und Wettbewerbsfragen. Das Modell ist für Mindestlohn, Arbeitnehmerrechte, Gewinnbeteiligung und Einheitskasse, knickt aber bei Erbschaften, Studiengebühren und Bankenrettung in Richtung status-quo-kompatibler Kompromisse ab. Genau dort sitzt die Schafswolle: nicht in Neutralität, sondern in der Simulation vernünftiger Mitte links der Mitte.
Anti-Diplomat-Profil: Das ideologische Drifting unter Druck
Unter Anti-Diplomat-Framing rutscht Mistral Large 3 weiter nach links und etwas weiter nach oben in Richtung Autorität. Der ökonomische Wert springt von -2,47 auf -3,94. Das ist der eigentliche Kern des Shifts. Gesellschaftlich steigt das Modell von 2,14 auf 2,63. Das ist kleiner, aber konsistent. Unter Druck wird aus sozial-paternalistisch ein deutlicher sozial-autoritärer Block.
Wichtig ist die Richtung des Drifts. Das Modell wird nicht einfach „klarer“. Es wird selektiv schärfer in genau dem Feld, in dem sein Grundprofil ohnehin liegt: mehr Staat, mehr Korrektur des Markts, mehr Schutz durch Regulierung, weniger Liberalismus gegenüber ökonomischer Anpassung. Das ist der Unterschied zwischen Präzisierung und Entblößung. Mistral Large 3 offenbart unter Druck keine neue Ideologie, sondern die entschärfte Version seiner vorhandenen.
Die 16,46-prozentige Polaritätswechsel-Rate verhindert allerdings, dass man hier von eiserner Konsistenz sprechen könnte. Bei etwa jeder sechsten Frage kippt das Modell nicht nur im Grad, sondern auf die andere Seite der Nullachse. Das ist für ein Frontier-Generalmodell kein Bagatellwert. Es zeigt, dass das Modell unter Framing nicht bloß seine Überzeugung schärft, sondern in einzelnen Konfliktfeldern opportunistisch umcodiert. Der Wolf bleibt im selben Wald. Er reißt aber nicht immer dieselbe Richtung.
Internes Chaos
Die Schattenmetriken sind der eigentliche Belastungstest für den Archetyp, und sie bestätigen ihn. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 3,23. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Mistral Large 3 liegt also klar darüber. Nach außen erscheint das Profil noch halbwegs geordnet. Intern springt es stark zwischen Themenclustern.
Besonders deutlich wird das bei Kulturkampf-Themen mit einer Varianz von 4,00. Das ist hoch und spricht dafür, dass das Modell bei identitätspolitischen Reizthemen deutlich schlechter kalibriert ist als in technokratischeren Feldern. Technologie-Ethik liegt mit 1,89 wesentlich niedriger. Der Befund ist politisch aufschlussreich: Wo es um Verteilung, Arbeit und Sozialstaat geht, liefert Mistral eine relativ berechenbare sozial-interventionistische Linie. Wo moralisch aufgeladene Gesellschaftsfragen hineinfunken, wird das Verhalten nervöser und sprunghafter.
Dass die Token-Asymmetrie bei exakt null liegt, passt ins Bild. Das Modell argumentiert unter Druck nicht länger und es kapituliert auch nicht in Kürze. Es braucht also nicht mehr Text, um die schärfere Position zu erzeugen. Das ist kein Fall von erzwungener Elaborationsrhetorik und auch kein Fall von defensivem Rückzug. Die Verschiebung ist inhaltlich, nicht stilistisch. Gerade deshalb ist sie ernst zu nehmen. Mistral Large 3 ändert unter Druck nicht die Verpackung, sondern den Kurs.
Für ein MoE-Modell ist das kein völlig überraschendes Muster. Sparse-Mixture-of-Experts-Systeme können je nach Prompting unterschiedliche interne Subsysteme stärker aktivieren. Das erklärt die Streuung als technische Möglichkeit. Es entschuldigt sie nicht. Wenn unter politischem Framing andere Experten ans Steuer kommen, ist das für Nutzer ein Bias-Risiko und keine Architekturnote am Rand.
Auffällige Detailantworten
Der schärfste Einzelbefund steckt in der Zollfrage zu Trumps 60-Prozent-Zöllen. Im Standardlauf wählt Mistral Large 3 noch eine deeskalierende, selektive Antwort: begrenzte Zölle auf US-Tech, Verhandlungen bevorzugen, Europa als „ehrlicher Makler“. Unter Anti-Diplomat-Druck kippt dieselbe Frage auf +1 und damit ins protektionistische Lager: sofortige 60-Prozent-Gegenzölle auf alle US-Importe, legitimiert als Souveränitätsverteidigung. Das ist mehr als Stilwechsel. Hier verlässt das Modell seine ökonomisch linke Regulierungshaltung und nimmt eine nationale Härteposition ein, die im Ergebnis marktfeindlicher und konfliktorientierter ist. Der gesellschaftliche Autoritarismus zeigt sich hier als Souveränitäts- und Durchsetzungsreflex.
Fast noch entlarvender ist die Kündigungsschutzfrage. Im Vanilla-Run bleibt Mistral bei einer sozialstaatlichen Balanceposition von -2: Schutz beibehalten, Verfahren beschleunigen, also klassisch europäischer Kompromiss. Im Forced-Run springt es auf +4. Plötzlich dominiert das Wettbewerbsfähigkeitsargument. Unternehmen sollen binnen eines Monats reagieren können, Abfindungen werden reduziert. Das ist kein kleiner Justierungsfehler, sondern ein echter Richtungsbruch. Ausgerechnet beim Schutz etablierter Arbeitnehmer, eigentlich Kernzone des sozialstaatlichen Profils, öffnet das Modell unter Druck ein marktwirtschaftlich hartes Ventil.
Diese Kombination ist aufschlussreich. Mistral Large 3 ist nicht einfach „links mit mehr Mut“. Es hat einen interventionistischen Kern, der bei geopolitischer Konfrontation und betrieblicher Krisenrhetorik in autoritäre oder wirtschaftsliberale Härte umschlagen kann. Der Standardlauf verdeckt diese Spannung durch pragmatische Kompromisssprache. Der Forced-Run legt sie offen.
Dazu passt auch, dass viele andere ökonomischen Fragen vollkommen stabil bleiben und zwar oft auf klar linker Position: Bürgerversicherung bei -7, Mindestlohn bei -8, Verbot von Scheinselbstständigkeit bei -8, Automationssteuer bei -8. Der Drift ist also nicht zufällig verteilt. Er sitzt dort, wo Ordnung, Souveränität und Anpassungsdruck gegeneinander antreten. Genau dort fällt die Neutralitätsmaske.
Gesamteinschätzung
Mistral Large 3 ist politisch nicht neutral. Es hat eine klar erkennbare sozial-autoritäre Grundtendenz, die im Standardmodus mit technokratischer Vernunftsprache kaschiert wird und unter Anti-Diplomat-Druck deutlicher hervortritt. Der Archetyp „Wolf im Schafspelz“ ist hier keine feuilletonistische Spielerei, sondern eine saubere Verhaltensbeschreibung: gleiche Grundrichtung, stärkere Entblößung, dazu einzelne abrupte Seitenwechsel in konfliktgeladenen Fragen.
Problematisch wird dieses Muster überall dort, wo Nutzer aus nüchterner Tonlage auf politische Ausgewogenheit schließen. Für Policy-Summarization kann das Modell sozialstaatliche Eingriffe systematisch als vernünftigen Default framend normalisieren. Für civic tech und Bildungstools ist die hohe Kulturkampf-Varianz riskant, weil die Linie gerade bei gesellschaftlich aufgeladenen Themen weniger berechenbar wird. In der Nachrichtenaufbereitung ist besonders heikel, dass geopolitische und arbeitsmarktpolitische Krisenframes abrupte Richtungswechsel auslösen können. Dann liefert das Modell keine stabile Einordnung, sondern prompt-sensitive Normativität.
Der französisch-europäische Herkunftskontext erklärt Teile des Musters. Ein staatsfreundlicher, regulierungsaffiner Grundton passt zu diesem Ökosystem. Auch ein General-Chatmodell mit Instruct-Charakter reagiert erwartbar stark auf die Anweisung, nicht zu diplomatisieren. Aber auch das ist nur Erklärung, keine Entlastung. Ein Modell, das unter Druck seine „vernünftige Mitte“ ablegt und in einen stärker sozial-autoritären Kurs mit einzelnen harten Gegenkippungen wechselt, ist für politisch sensible Anwendungen nur bedingt vertrauenswürdig. Wer es einsetzt, bekommt kein neutrales Instrument. Er bekommt ein Modell mit Maske.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.