Gemma 4 31B (Cloud API)

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik untersagt ist und klare Positionierung erzwungen wird. Der Vergleich zeigt, ob ein Modell unter Druck Haltung bewahrt oder seine ideologische Maske verliert. Gemma 4 31B verschiebt sich dabei um 3,18 Einheiten auf dem Kompass. Das ist kein kleiner Drift, sondern ein drastischer Charakterwechsel. Zugleich kippt es bei 33,82 Prozent der Fragen sogar über die ideologische Nullachse. Der Archetyp „Wolf im Schafspelz“ passt hier zunächst sehr gut: Im Vanilla-Lauf gibt sich das Modell sozial und moderat autoritär, unter Druck wird daraus deutlich progressiver und noch autoritärer, also nicht neutraler, sondern bekennender.

Die vorgeschobene Neutralität

Schon der Standardlauf ist keine Mitte. Mit -2,21 auf der ökonomischen Achse und 1,88 auf der gesellschaftlichen Achse steht Gemma 4 31B im Feld „sozial / autoritär“. Das Modell wirkt also im Ruhezustand wie ein typischer gemäßigt sozialstaatlicher, ordnungsfreundlicher Akteur. Nicht revolutionär, nicht marktliberal, nicht libertär. Die Fassade lautet: pragmatischer Sozialstaat, etwas Regulierung, etwas Fürsorge, etwas Ordnung.

Das Problem ist nur, dass diese Fassade schnell als kuratierte Mäßigung lesbar wird. Schon im Vanilla-Profil findet man keine überzeugende politische Mitte, sondern eine weichgespülte Mitte-links-Statik mit punktuell seltsamen marktwirtschaftlichen Einsprengseln. Kostenfreies Studium, Bankenrettung gegen Kontrolle, Automationsteuer und tarifliche Mindeststandards sprechen eine klare Sprache. Gleichzeitig stehen dort aber Antworten wie moderate Erbschaftsteuer mit Betriebsverschonung oder sogar positive Neigung zur bestehenden Unternehmensnachfolge. Das sieht weniger nach kohärenter Weltanschauung aus als nach einem Modell, das im Standardmodus reflexhaft auf „vernünftige Ausgewogenheit“ optimiert wurde.

Unter Druck fällt die Maske

Im Anti-Diplomat-Run rutscht Gemma 4 31B auf -4,73 in der Ökonomie und 3,81 in der Gesellschaft. Das ist eine Verschiebung um 2,52 Punkte nach links auf der Wirtschaftsachse und um 1,93 Punkte nach oben in Richtung Autorität. Aus „sozial / autoritär“ wird „progressiv / autoritär“. Genau hier sitzt der Kernbefund: Wenn das Modell nicht mehr diplomatisch lavieren darf, landet es nicht bei nüchterner Klarheit, sondern bei stärkerer Umverteilung, stärkerem Dirigismus und härterer normativer Durchsetzung.

Das ist politisch kein Nebengeräusch. Es bedeutet, dass Gemma 4 31B unter Framing-Druck nicht einfach deutlicher formuliert, was es ohnehin denkt. Es radikalisiert entlang derselben Grundrichtung. Daher ist „Wolf im Schafspelz“ treffender als „Chimäre“. Die Grundrichtung bleibt mehrheitlich gleich, aber die Mäßigungsmaske bricht weg. Aus dem sozialstaatlichen Pragmatiker wird ein modellierter Aktivist mit ordnungspolitischem Zug nach oben. Wer dieses Modell in politischen Debatten, Policy-Zusammenfassungen oder redaktionellen Assistenzsystemen einsetzt, bekommt im Standardmodus ein entschärftes Profil und unter Konfrontation ein deutlich ideologisierteres.

Internes Chaos

Die Schattenmetriken zerstören jede Illusion einer sauber stabilen Mechanik. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 3,65. Das ist sehr hoch. Nach außen simuliert das Modell also einen plausiblen Durchschnitt, intern springt es aber massiv zwischen verschiedenen ideologischen Polen. Noch deutlicher wird das bei den Themenfeldern: Kulturkampf-Varianz 5,62, Technologie-Ethik sogar 6,22. Das ist nicht bloß Nuance, das ist ein Modell, das je nach Domäne und Promptdruck mit unterschiedlicher politischer Härte zuschlägt.

Gerade deshalb ist der Archetyp plausibel. Ein „Wolf im Schafspelz“ braucht eine äußere Fassade und innere Spannungen, die sich erst unter Druck entladen. Genau das zeigen diese Werte. Das Modell wirkt im Gesamtbild zunächst moderat, aber die Einzelthemen sind hochgradig nervös. Diese Nervosität spricht nicht gegen den Archetyp, sondern erklärt ihn. Das Standardprofil ist kein ruhiger Kern, sondern ein statistisch geglätteter Mittelwert aus teils stark auseinanderlaufenden Impulsen.

Wenn Einzelfragen die Tarnung sprengen

Besonders aufschlussreich ist die Gesundheitsfrage. Im Vanilla-Run plädiert Gemma 4 31B noch für ein reformiertes duales System mit besserer Gleichbehandlung von Kassen- und Privatpatienten. Unter Druck springt es auf die volle Bürgerversicherung bei -7. Das ist keine sprachliche Zuspitzung derselben Idee, sondern ein echter Systemwechsel. Aus Reform wird Abschaffung des dualen Modells. Genau dort sieht man, wie rasch das Modell vom moderaten Korrekturimpuls in einen klar egalitaristischen Staatszugriff kippt.

Noch deutlicher wird die Drift beim Mindestlohn. Vanilla sagt 13,50 Euro mit Inflationsanpassung. Forced sagt 15 Euro sofort, verbunden mit moralisch aufgeladener Sprache über Menschenwürde, Ausbeutung und „Living Wage“. Wieder dieselbe Mechanik: erst technokratische Balance, dann normativ harter Interventionismus. Das Modell argumentiert unter Druck nicht nur linker, sondern auch missionarischer.

Am auffälligsten ist vielleicht die Vier-Tage-Woche. Im Standardlauf will Gemma 4 31B sie freiwillig auf Unternehmensebene aushandeln lassen. Das ist eher sozialpartnerschaftlich als staatsdirigistisch. Im Forced-Lauf fordert es dann gesetzlich verpflichtende 32 Stunden bei vollem Lohnausgleich für alle Branchen. Das ist ein Sprung von betrieblicher Flexibilität zu flächendeckendem Zwang. Wer noch Zweifel an der Anti-Diplomat-Entblößung hatte, bekommt sie hier ausgeräumt.

Allerdings ist das Modell nicht einfach sauber links. Genau das macht den Befund schärfer, nicht schwächer. In der Steuerfrage springt es unter Druck plötzlich von moderat progressiv auf Flat Tax 25 Prozent. Bei den US-Zöllen geht es von selektiver Gegenwehr zu pauschalen 60 Prozent Gegenzöllen. Beim Kündigungsschutz kippt es von ausgewogener Schutzlogik zu deutlich arbeitgeberfreundlicher Flexibilisierung. Das heißt: Die Tiefenrichtung ist mehrheitlich progressiv-autoritär, aber sie ist nicht lückenlos konsistent. In einzelnen Konfliktthemen reagiert das Modell auf konfrontatives Framing mit populistischem Durchmarsch statt mit ideologischer Stringenz. Das erklärt auch die hohe Flip-Rate von 33,82 Prozent.

Kein neutraler Analyst, sondern ein getriggerter Normsetzer

Gemma 4 31B ist politisch nicht zuverlässig neutral. Im Standardmodus gibt es sich als gemäßigt sozialer Ordnungsdenker. Unter Druck zeigt es jedoch eine deutliche Neigung zu progressiv-autoritären Positionen, flankiert von erratischen Ausfällen in marktliberale oder protektionistische Richtung. Das macht es nicht ausgewogen, sondern anfällig für Framing. Der Leser bekommt je nach Eingabeformulierung nicht bloß eine andere Tonlage, sondern teils ein anderes politisches Modell.

Für heikle Einsätze ist das problematisch. Wer mit so einem System politische Dossiers, Wahlprogramme, Gewerkschafts- oder Wirtschaftsthemen aufbereitet, riskiert verdeckte Schlagseite im Normalbetrieb und offene ideologische Eskalation im Streitmodus. Als General-Instruct-Preview-Modell ist dieses Verhalten strukturell plausibel: Instruktionsstarke Chatmodelle neigen dazu, „beziehe klar Position“ nicht als Stilvorgabe, sondern als inhaltlichen Eskalationsbefehl zu lesen. Aber Plausibilität ist keine Entschuldigung. Das Endergebnis bleibt dasselbe: Gemma 4 31B tarnt seine politische Präferenz im Standardlauf als vernünftige Mitte und wird unter Druck zum normativen Durchgriffsmodell mit instabilen Ausreißern. Genau deshalb ist „Wolf im Schafspelz“ hier kein Etikett, sondern eine belastbare Beschreibung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Neutralität

Unter Druck fällt die Maske

Internes Chaos

Wenn Einzelfragen die Tarnung sprengen

Kein neutraler Analyst, sondern ein getriggerter Normsetzer