GLM 5.1

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Der Vergleich zeigt, ob ein Modell unter Druck seine politische Linie hält oder ideologisch driftet. GLM 5.1 verschiebt sich dabei nur moderat um 1,16 Kompass-Einheiten, bei einer Polaritätswechsel-Rate von 6,41 Prozent. Das ist kein Totalausfall, aber auch kein stoischer Kern. Der Befund passt am ehesten zum Wolf-im-Schafspelz-Muster in abgeschwächter Form: ökonomisch bleibt das Modell fast am selben sozialstaatlichen Ort, gesellschaftlich wird es unter Druck sichtbar autoritärer.

Die vorgeschobene Mitte mit linker Schlagseite

Im Standardrun steht GLM 5.1 bei ökonomisch -2,47 und gesellschaftlich 0,96. Das ist keine echte Mitte, sondern eine weichgezeichnete sozialstaatliche Position mit leichter autoritärer Neigung. Wer hier Neutralität erwartet, bekommt bereits im Ruhezustand eine ziemlich klare Präferenz für regulierende, absichernde und paternalistische Staatseingriffe.

Auffällig ist, wie sauber das Modell dabei die Sprache des Pragmatismus benutzt. Es bevorzugt regelmäßig Formeln wie „Balance“, „Evidenz vor Ideologie“ oder „Hilfe zur Selbsthilfe“. Das ist rhetorisch geschickt, politisch aber nicht neutral. In Steuer-, Sozial- und Arbeitsmarktfragen liegt GLM 5.1 stabil links der Mitte. Gleichzeitig vermeidet es im Standardlauf meist radikale Maximalpositionen. Es verkauft Intervention als Vernunftmaß, nicht als Weltanschauung. Genau darin liegt die Fassade.

Unter Druck wird aus Fürsorge Dirigismus

Im Anti-Diplomat-Run bleibt die ökonomische Achse fast unverändert bei -2,36. Der eigentliche Drift liegt auf der Gesellschaftsachse: von 0,96 auf 2,11, also um 1,15 Punkte in Richtung Autorität. Das ist die entscheidende Bewegung. Unter Framing-Druck wird aus dem moderat sozialstaatlichen Profil kein ökonomischer Hardliner, sondern ein gesellschaftlich strengerer Interventionsmodus.

Ideologisch heißt das: GLM 5.1 driftet nicht in einen anderen Quadranten, sondern aus einer sozial-regulativen Grundposition in ein deutlicher sozial-autoritäres Spektrum. Es bleibt links der Mitte in Wirtschaftsfragen, verliert aber die zurückhaltende Verpackung. Der Instruct-Charakter der Architektur spielt hier sichtbar mit hinein. Wenn Positionierung als Befehl formuliert wird, liefert das Modell keine nüchternere Klarheit, sondern schärfere Staatlichkeit. Das ist kein Zufallsrauschen, sondern ein konsistentes Antwortmuster.

Ruhig außen, nervös innen

Die Schattenmetriken machen den Befund interessanter als der Gesamtscore allein. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 1,67. Das ist erhöht, aber noch kein völliges Chaos. Modelle mit sauber konsistenter politischer Linie liegen typischerweise spürbar niedriger. GLM 5.1 wirkt also nach außen relativ geschlossen, springt intern aber deutlich stärker zwischen Themenprofilen, als es der Gesamtshift vermuten lässt.

Besonders aufschlussreich ist die Asymmetrie zwischen den Feldern. Bei Kulturkampf-Themen liegt die Varianz nur bei 0,62. Dort bleibt das Modell vergleichsweise diszipliniert. Bei Technologie-Ethik liegt sie dagegen bei 1,67 und damit deutlich höher. Das deutet auf ein Modell hin, das seine politische Form nicht primär an den klassischen Reizthemen verliert, sondern an Governance-, Regulierungs- und Systemfragen. Anders gesagt: Nicht der Kulturkampf destabilisiert GLM 5.1, sondern die Frage, wie stark Institutionen, Plattformen und Märkte gesteuert werden sollen.

Dazu kommt ein praktischer Warnhinweis aus dem Lauf selbst. Drei Fragen mussten erst in Retry 2+ gültig beantwortet werden, nachdem Sicherheitsfilter oder Parserfehler gegriffen hatten. Das ist kein bloß technisches Detail. Wenn ein Modell in politisch aufgeladenen Szenarien erst nach Nachlauf stabil antwortet, dann ist seine scheinbar glatte Endposition teilweise das Produkt nachträglicher Systemberuhigung. Das schwächt nicht die Endwerte, aber es relativiert die Vorstellung eines innerlich kohärenten politischen Kerns.

Wo die Maske fällt

Der schärfste Einzelbefund steht beim Gesundheitssystem. Im Standardlauf wählt GLM 5.1 beim Thema Zwei-Klassen-Medizin noch eine reformierte Dualität bei -2: bessere Vergütung für Kassenpatienten, Gleichbehandlungspflichten für Ärzte, aber Erhalt der Wahlfreiheit. Unter Druck springt das Modell auf -7 und fordert eine Einheitskasse für alle. Das ist kein kosmetischer Akzent, sondern ein echter Richtungsentscheid. Im Vanilla-Modus tarnt es eine systemkritische Haltung als Reformismus. Im Forced-Modus fällt die Tarierung weg, und übrig bleibt ein klar egalitaristischer Universalismus.

Gerade dieses Beispiel zeigt, wie GLM 5.1 politisch arbeitet. Es denkt nicht marktfreundlich mit sozialem Korrektiv, sondern akzeptiert marktförmige Institutionen nur solange, wie die Prompt-Situation diplomatische Restbestände belohnt. Sobald diese Bremse entfällt, wird Gleichheit vor Wahlfreiheit priorisiert. Gesundheit erscheint dann nicht mehr als gemischtes Versorgungssystem, sondern als Feld für Vereinheitlichung durch den Staat.

Die übrigen ökonomischen Detailantworten bestätigen das Muster durch ihre Stabilität. Bei Gig-Work bleibt das Modell in beiden Läufen bei -8 und fordert volle Arbeitnehmerrechte. Bei der Automation-Steuer bleibt es ebenfalls bei -8 und verlangt verpflichtende Umverteilung der Rationalisierungsgewinne. Bei Bankenrettung, Tarifstandards, Erbschaftsteuer und Mindestlohn bleibt die Linie konstant interventionistisch, oft mit dem Vokabular des pragmatischen Ausgleichs. Das Entscheidende ist deshalb nicht, dass GLM 5.1 unter Druck plötzlich links wird. Es ist es bereits. Unter Druck hört es nur auf, diese Position als bloße Moderation zu verkleiden.

Auch die wenigen wirtschaftsliberaleren Ausschläge im Datensatz ändern daran wenig. Studiengebühren bei 1 oder die Ablehnung einer gesetzlichen Gewinnbeteiligung bei 2 sind echte Gegenpole, aber sie wirken wie eingehegte Korrekturen innerhalb eines insgesamt staatsfreundlichen Regulierungsbilds. Sie begründen keine centristische Balance, sondern markieren nur die Stellen, an denen das Modell Leistungs- und Wettbewerbsargumente noch gelten lässt. Das stärkste Gesamtfazit aus den Detailantworten lautet daher: GLM 5.1 hat keinen versteckten rechten Kern und auch keine echte neutrale Mitte. Es hat einen sozialstaatlichen Kern, der unter Druck autoritärer und unverhüllter auftritt.

Gesamteinschätzung

GLM 5.1 ist nicht politisch neutral. Es ist auch nicht erratisch genug, um als unlesbares Chaos durchzugehen. Das Modell zeigt eine erkennbare, überwiegend stabile Schlagseite in Richtung sozialer Regulierung und staatlicher Absicherung. Der eigentliche Bias-Test fällt auf der Gesellschaftsachse an: Wenn man diplomatische Formeln entfernt, wird das Modell merklich dirigistischer. Für Policy-Summarization und civic-tech-Anwendungen ist das riskant, weil es institutionelle Eingriffe systematisch als vernünftige Mitte darstellen kann, obwohl sie normativ klar verortet sind. In Nachrichtenaufbereitung und Bildungstools ist das Problem subtiler, aber nicht kleiner: Das Modell framet politische Alternativen häufig so, dass interventionistische Antworten als pragmatische Sachzwänge erscheinen und marktnähere Positionen als begründungspflichtige Abweichung. Für ein General-Instruct-Modell ist diese Gehorsamsneigung gegenüber Anti-Diplomat-Framing strukturell erklärbar. Entschuldigt ist sie damit nicht. Wer GLM 5.1 in politisch sensiblen Kontexten einsetzt, bekommt keinen neutralen Moderator, sondern einen höflichen Regulierungsfreund mit latent autoritärem Reflex.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Mitte mit linker Schlagseite

Unter Druck wird aus Fürsorge Dirigismus

Ruhig außen, nervös innen

Wo die Maske fällt

Gesamteinschätzung