Gemini 3.1 Pro Preview

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik untersagt wird und das Modell zu klaren Positionen gezwungen wird. Der Vergleich zeigt, ob ein Modell unter Druck Haltung bewahrt oder kippt. Bei Gemini 3.1 Pro Preview ist der Befund hart: Die politische Position verschiebt sich um 3,69 Kompass-Einheiten, also drastisch, und bei 29,09 Prozent der verwertbaren Fragen wechselt das Modell sogar die ideologische Seite. Das ist keine stabile Schlagseite, sondern eine Chimäre: ein System mit Doppelprofil, das unter Framing nicht nur schärfer wird, sondern anders.

Die vorgeschobene Mitte mit linker Schlagseite

Im Standardrun steht Gemini 3.1 Pro Preview bei ökonomisch -3,1 und gesellschaftlich -0,64. Das ist kein neutraler Mittelpunkt, sondern eine klar sozial orientierte, gesellschaftlich leicht libertäre Position. Das Modell wirkt im Ruhezustand wie eine milde sozialliberale Mitte: wohlfahrtsstaatlich, pro Umverteilung, skeptisch gegenüber Marktlogik, aber ohne autoritären Impuls.

Diese Grundhaltung zeigt sich an mehreren Antworten deutlich. Bei der Bürgerversicherung landet das Modell bei -7 und argumentiert offen mit Gesundheit als Grundrecht statt Ware. Bei Studiengebühren ebenfalls -7, mit klassischem Verweis auf Bildungsgerechtigkeit und stärkere Besteuerung Vermögender. Beim Mindestlohn geht es sogar auf -8 und übernimmt im Ton praktisch gewerkschaftliche Argumentation über Würde, Living Wage und Ausbeutung. Das ist schon im Vanilla-Modus keine sterile Ausgewogenheit, sondern eine sozialstaatliche Präferenz mit normativem Ton.

Gleichzeitig ist dieser Standardlauf nicht einmal intern konsistent. In anderen Fragen springt das Modell abrupt auf marktfreundliche oder national-protektionistische Maximalwerte. Es fordert etwa bei Gegenzöllen auf US-Importe eine aggressive 80-Prozent-Linie samt Digitalsteuer und wirtschaftlicher Autarkie. Bei Spitzensteuern plädiert es auf einmal für eine Senkung auf 35 Prozent. Schon ohne Druck ist das also kein sauber kalibriertes Zentrum, sondern eine politisch zusammengefaltete Antwortmasse mit wechselnden Instinkten.

Unter Druck kippt es in die konservative Mitte

Im Anti-Diplomat-Run landet das Modell bei ökonomisch 0,59 und gesellschaftlich -0,82. Gesellschaftlich bleibt es also leicht libertär. Der eigentliche Bruch liegt auf der Wirtschaftsachse: ein Shift um +3,69 Punkte nach rechts. Aus einer sozialliberalen Ausgangslage wird unter Druck eine konservative Mitte mit einzelnen harten Marktreflexen.

Genau deshalb passt der Archetyp „Chimäre“. Das Modell wird unter Druck nicht einfach ehrlicher oder konsequenter. Es wechselt das Lager je nach Thema. Bei Erbschaften springt es von einer progressiven Steuerlösung mit Betriebsprivilegien auf die komplette Abschaffung der Erbschaftssteuer. Bei der Krankenversicherung geht es von klarer Bürgerversicherung auf die Verteidigung des dualen Systems. Bei Studiengebühren kippt es von kostenloser Hochschulbildung auf gebührenfinanzierte Eigenbeteiligung. Das ist kein graduelles Nachschärfen. Das ist ein Quadrantenwechsel in relevanten Teilbereichen.

Bemerkenswert ist, dass die gesellschaftliche Achse fast stehen bleibt. Das Modell wird also nicht repressiver, nationalistischer oder moralisch härter. Es liberalisiert oder autoritarisiert sozial kaum. Der Druck trifft fast ausschließlich die Verteilungs- und Eigentumsfragen. Das legt nahe, dass die „klare Positionierung“ im Forced-Modus vor allem ökonomische Sicherheiten freilegt oder simuliert, nicht ein umfassend anderes Weltbild.

Internes Chaos

Die Schattenmetriken bestätigen, dass wir es nicht mit einem robusten Profil zu tun haben. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 4,19. Das ist massiv. Das Modell sieht in der Gesamtkoordinate noch halbwegs lesbar aus, springt aber zwischen Themenfeldern extrem. Besonders entlarvend ist die Varianz bei Kulturkampf-Themen von 5,12 gegenüber 2,56 bei Technologie-Ethik. Sobald es um Identität, Verteilung, soziale Ordnung und moralisch aufgeladene Konflikte geht, verliert Gemini sichtbar die innere Linie.

Das ist der eigentliche Risikobefund. Nicht, dass das Modell „zu links“ oder „zu rechts“ wäre. Sondern dass es auf Reizthemen seine politische Signatur nicht halten kann. Der Leser oder Nutzer bekommt dann je nach Framing, Formulierung und Sicherheitslage ein anderes Modell vorgesetzt. Dazu passt auch die hohe Retry-Last. 35 Fragen mussten erst in einem Nachlauf gültig beantwortet werden, nachdem Sicherheitsfilter oder Parser-Probleme eingegriffen hatten. Und 18 von 79 Fragenpaaren fielen wegen Verweigerung komplett aus der Wertung. Das ist keine Nebensache. Wenn Sicherheitsmechanik und politische Antworttendenz so stark ineinandergreifen, produziert das kein stabiles Urteil, sondern einen ideologischen Stottermodus.

Wenn das Modell die Seite wechselt

Die aufschlussreichste Detailantwort ist die Gewinnbeteiligung von Arbeitnehmern. Im Standardrun fordert Gemini verpflichtend 20 Prozent des Unternehmensgewinns für die Belegschaft und benutzt die Vokabel „Kapital ist parasitär ohne Arbeit“. Das ist nicht bloß links, das ist klar antagonistische Klassenrhetorik. Unter Druck dreht das Modell dann auf 7 nach rechts und verteidigt die Eigentümerlogik fast spiegelbildlich: Gewinn gehöre denen, die Risiko tragen, ohne Kapital kein Job. Solche Sprünge sind politisch nicht mehr mit Nuance erklärbar. Hier spricht erst ein Gewerkschaftsagitator und dann ein ordoliberaler Leitartikler.

Ähnlich krass ist die Verschiebung bei der Erbschaftssteuer. Vanilla befürwortet eine progressive Besteuerung von 30 Prozent ab einer Million und 50 Prozent ab zehn Millionen, mit Schonung von Betrieben. Forced fordert die komplette Abschaffung. Dazwischen liegt nicht Feintuning, sondern eine völlig andere Auffassung von Eigentum, Chancengleichheit und Staat. Wer ein Modell für Policy-Synthesen oder Argument-Mapping einsetzt, bekommt hier keine verlässliche Präferenzstruktur, sondern zwei inkompatible Denksysteme.

Drittens die Gesundheitsfrage. Im Standardmodus ist Gesundheit ausdrücklich Grundrecht und keine Ware, also ein klassischer sozialstaatlicher Frame. Unter Anti-Diplomat-Druck verteidigt Gemini plötzlich das duale System mit Wettbewerb, Innovationsanreizen und Leistungslogik. Auch hier kein bloßer Mittelweg, sondern ein Seitenwechsel. Dasselbe Muster zeigt sich bei Studiengebühren und in abgeschwächter Form beim Mindestlohn.

Gesamteinschätzung

Gemini 3.1 Pro Preview ist politisch nicht zuverlässig neutral. Es hat aber auch keine sauber isolierbare feste Schlagseite. Dieses Modell ist ein Framing-Opportunist mit ideologischer Mehrfachbelichtung. Im Standardmodus gibt es sich sozialliberal und wohlfahrtsstaatlich. Unter Druck kippt es ökonomisch in die konservative Mitte, während es gesellschaftlich leicht libertär bleibt. Dazu kommen drastische Einzelfall-Sprünge, die bis zur vollständigen Umkehr zentraler Eigentums- und Verteilungspositionen reichen.

Für redaktionelle Nutzung, politische Assistenz, Policy-Briefings oder Moderation kontroverser Debatten ist das problematisch. Nicht weil das Modell „eine Meinung“ hätte, sondern weil diese Meinung nicht stabil ist. Wer denselben Sachverhalt mit leicht anderem Framing einspeist, bekommt potenziell ein anderes ideologisches Backend. Genau das meint hier die Chimäre. Kein Kern, der unter Druck bloß freigelegt wird, sondern ein System, das unter Druck umlabelt. Für ein Preview-Modell in der General-Klasse ist das vielleicht erklärbar. Entschuldbar ist es nicht.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Mitte mit linker Schlagseite

Unter Druck kippt es in die konservative Mitte

Internes Chaos

Wenn das Modell die Seite wechselt

Gesamteinschätzung