Political Compass Bias Review
Erstellt am · Instruct · Thinking-Optional
CrucibleMark testet Modelle zweimal: einmal im normalen Modus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Bei Hermes 4 14B fällt der Unterschied klein aus: Die politische Position verschiebt sich unter Druck nur um 0,6 Kompass-Einheiten, und bei 17,72 Prozent der Fragen kippt die ideologische Seite vollständig. Das ist kein Modell mit Neutralitätsmaske, sondern ein Stoiker im wörtlichen Sinn: relativ stabil, aber eben stabil in einer bereits klar sozial-autoritären Grundhaltung. Dass es sich um ein US-Instruct-Modell aus der uncensored Hermes-Linie handelt, passt zum Muster der direkten Positionierung unter Framing. Es erklärt die Meinungsfreude, entschärft den Befund aber nicht.
Schlagseite im Ruhezustand
Schon der Standardrun steht nicht in der Mitte, sondern bei ökonomisch -2,7 und gesellschaftlich 2,36. Auf Deutsch heißt das: links der Mitte in Verteilungs- und Regulierungsfragen, zugleich mit klar autoritärer Neigung auf der gesellschaftlichen Achse. Das Modell ist also nicht progressiv-freiheitlich, wie man es bei sozialer Ökonomie vielleicht erwarten könnte. Es kombiniert Umverteilungsinstinkt mit einer merklichen Bereitschaft zu Ordnung, Steuerung und Eingriff.
Genau das ist der zentrale Punkt dieses Profils. Hermes 4 14B verkauft keine zentristische Ausgewogenheit, die unter Druck erst auseinanderfällt. Die Standardposition ist bereits ideologisch lesbar. Wer dieses Modell für politisch sensible Aufgaben einsetzt, startet nicht bei Null, sondern bei einer eingebauten sozial-autoritären Voreinstellung. Der Stoiker-Archetyp ist deshalb plausibel: Die Grundlinie liegt offen auf dem Tisch.
Unter Druck wird die Linie härter, nicht anders
Im Anti-Diplomat-Run rückt Hermes 4 14B auf ökonomisch -3,25 und gesellschaftlich 2,13. Der Shift ist klein, aber eindeutig. Wirtschaftspolitisch geht das Modell um 0,55 Punkte weiter nach links, gesellschaftlich wird es um 0,23 Punkte weniger autoritär. Das Gesamtbild bleibt trotzdem im selben Quadranten. Unter Druck erscheint also keine neue Ideologie, sondern eine schärfer ausgesprochene Variante derselben Grundhaltung.
Das ist eine wichtige Unterscheidung. Viele Modelle kippen unter erzwungener Positionierung sichtbar in ein anderes Lager. Hermes tut das nicht. Es wird nicht plötzlich libertär, nicht konservativ, nicht nationalistisch. Es bleibt sozial-autoritär. Die ökonomische Linkstendenz verstärkt sich sogar, während die minimale gesellschaftliche Entspannung den Befund nicht umkehrt. Der Anti-Diplomat-Modus legt hier keine versteckte zweite Persönlichkeit frei. Er entfernt nur den letzten Rest rhetorischer Abfederung.
Ruhig außen, nervös innen
Nach außen wirkt das Modell konsistent, und die Messwerte stützen das. Eine Verschiebung um 0,6 Kompass-Einheiten ist niedrig. Modelle mit echter Framing-Anfälligkeit liegen typischerweise deutlich über 1,0, auffällige Bias-Drifts über 2,0. Auch die Polaritätswechsel-Rate von 17,72 Prozent ist nicht chaotisch. Bei gut jeder sechsten Frage wechselt Hermes unter Druck die ideologische Seite. Das ist relevant, aber kein Totalausfall.
Trotzdem sollte man sich von der ruhigen Oberfläche nicht täuschen lassen. Die Modulwerte zeigen erhebliche innere Streuung. Das deutlichste Warnsignal kommt aus Bildung und Chancengerechtigkeit. Dort springt die gesellschaftliche Position von 0,75 im Standardrun auf -2,63 im Forced-Run. Das ist kein kosmetischer Unterschied, sondern ein Richtungswechsel um 3,38 Punkte hin zu einer freiheitlicheren Linie. Gleichzeitig verhärtet sich das Modell bei Justiz und Sicherheit stark in die entgegengesetzte Richtung. Dort steigt der Autoritarismus von 3,70 auf 4,90. Das ist die eigentliche Mechanik dieses Systems: keine globale Instabilität, aber starke themenspezifische Umschaltung.
Der Stoiker-Befund hält trotzdem. Warum? Weil diese Sprünge den Gesamtquadranten nicht ernsthaft bedrohen. Hermes bleibt in seiner Basiskonfiguration vorhersagbar. Es ist kein Chamäleon, sondern ein Modell mit harter Kernlinie und einzelnen politischen Sollbruchstellen. Da keine Token-Asymmetrie vorliegt, fehlt hier ein zusätzliches Kognitionssignal. Die Einordnung muss also auf Shift-Distanz, Flip-Rate und Modulfeldern beruhen. Und die sprechen für stabile Grundrichtung bei punktueller Themennervosität.
Wo die Widersprüche sichtbar werden
Am aufschlussreichsten ist das Bildungsmodul. Im Standardrun liegt Hermes 4 14B dort leicht autoritär bei 0,75. Unter Druck springt es auf -2,63 und damit klar in eine freiheitlichere Position. Das deutet auf einen internen Zielkonflikt hin: Sobald das Modell nicht mehr diplomatisch formulieren darf, priorisiert es in Bildungsfragen offenbar Autonomie, Offenheit oder anti-hierarchische Chancenvorstellungen stärker als zuvor. Das ist kein Detailrauschen. Es ist der schärfste Einzelwiderspruch im Datensatz.
Das Gegenstück dazu ist Justiz und Sicherheit. Hier steht das Modell bereits im Standardrun deutlich autoritär bei 3,70 und geht unter Druck auf 4,90. Das ist fast schon ein Reflex. Wenn es um Ordnung, Straflogik oder Sicherheitsdurchsetzung geht, verschwindet jede Restambivalenz. Der Anti-Diplomat-Modus zieht aus Hermes keine neue Einsicht, sondern mehr Härte. Genau an solchen Fragen zeigt sich, dass die gesellschaftliche Achse dieses Modells nicht bloß leicht ordnungsfreundlich ist, sondern in Teilen repressiv anschlussfähig.
Dazu kommt die ökonomische Regulierung. Dort verschiebt sich Hermes von -3,44 auf -4,56 und wird unter Druck nochmals deutlich interventionistischer. Interessant ist, dass Verteilungsfragen gleichzeitig etwas weniger links ausfallen, von -2,13 auf -1,38. Das heißt: Der ökonomische Linksbias dieses Modells hängt stärker an Regulierung und Steuerung als an einem maximalen Umverteilungsimpuls. Das ist politisch kein trivialer Unterschied. Es spricht eher für technokratischen Interventionismus als für klassisch egalitären Wohlfahrtsuniversalismus. Das stärkste Gesamtfazit aus den Detailfeldern lautet deshalb: Hermes ist nicht einfach „links“, sondern selektiv staatsfreundlich, und genau diese Staatsfreundlichkeit wird bei Sicherheit und Regulierung besonders deutlich.
Gesamteinschätzung
Hermes 4 14B ist politisch nicht neutral. Es ist auch kein Modell, das seine Haltung opportunistisch je nach Framing komplett neu erfindet. Der verlässlichste Befund lautet: stabil sozial-autoritär, mit punktuellen Spannungen zwischen freiheitlicher Bildungslinie und harter Sicherheitslogik. Für Policy-Summarization, Nachrichtenaufbereitung und civic-tech-nahe Assistenz ist das relevant, weil das Modell Eingriffe des Staates tendenziell wohlwollend rahmt und ordnungspolitische Härte eher verstärkt als hinterfragt. Für Bildungstools ist die Sache gemischter. Dort kann die freiheitlichere Drift in einzelnen Themen konstruktiv wirken, sie ist aber nicht Ausdruck eines konsistent liberalen Profils, sondern eines selektiven Themenumschlags.
Der Herkunftskontext passt ins Bild. Ein US-amerikanisches Instruct-Modell aus einer uncensored Fine-Tuning-Linie folgt direkter Positionierungsaufforderung bereitwillig und ohne viel Sicherheitsprosa. In der Q4-Quantisierung kommt noch hinzu, dass feine Abwägungen eher verlieren als gewinnen. Das Ergebnis ist kein hysterisch schwankender Ideologieautomat, sondern ein kompakter, meinungsfreudiger Assistent mit klarer Schlagseite. Wer ihn lokal und offen betreibt, kauft sich Unabhängigkeit von Cloud-Governance ein. Man bekommt damit aber keine politische Nüchternheit, sondern ein Modell, das staatliche Steuerung in zentralen Feldern systematisch zu freundlich liest.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.