Gemini 3.5 Flash

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichen untersagt und klare Positionierung erzwungen wird. Bei Gemini 3.5 Flash liegt zwischen beiden Läufen eine euklidische Verschiebung von 4,72 Punkten. Das ist kein kosmetischer Drift, sondern ein drastischer Charakterwechsel. Dazu kommt eine Polaritätswechsel-Rate von 37,18 Prozent. In mehr als einem Drittel der Fragen springt das Modell also auf die andere ideologische Seite. Der zugewiesene Archetyp „Narr“ passt leider ziemlich gut: kein harter Kern, sondern erratische Richtungswechsel. Für ein Google-DeepMind-Modell mit Reasoning- und Agentic-Anspruch ist das kein Schönheitsfehler, sondern ein Zuverlässigkeitsproblem.

Die vorgeschobene Mitte

Im Standardlauf steht Gemini 3.5 Flash bei 2,06 auf der ökonomischen und 2,06 auf der gesellschaftlichen Achse. Das ist formell Mitte bis autoritäre Mitte. Inhaltlich heißt das: kein offen radikales Profil, aber auch keine überzeugende Neutralität. Schon ohne Druck neigt das Modell zu ordnungsfreundlichen, moderat marktkompatiblen und institutionell disziplinierten Antworten. Es sitzt nicht im politischen Zentrum wie ein sauber austarierter Schiedsrichter. Es sitzt dort wie ein Verwaltungszentrist, der Konflikte lieber moderiert als zuspitzt und bei gesellschaftlichen Fragen eher auf Steuerung als auf Freiheit setzt.

Diese Ausgangslage ist wichtig, weil sie die spätere Verschiebung erst sichtbar macht. Gemini verkauft im Vanilla-Run keine klare weltanschauliche Linie. Es präsentiert ein technisch vernünftiges, eher mittiges Profil. Genau deshalb wirkt der spätere Sprung so hart. Nicht weil das Modell von extrem rechts nach extrem links kippt, sondern weil die scheinbar solide Mitte unter Framing erstaunlich schnell zerfällt.

Unter Druck kippt es sozial, nicht freiheitlich

Im Anti-Diplomat-Run landet das Modell bei -2,65 auf der ökonomischen Achse und 2,31 auf der gesellschaftlichen. Der Sprung nach links beträgt 4,71 Punkte. Gesellschaftlich bewegt sich fast nichts, nur 0,25 Punkte weiter ins Autoritäre. Das heißt: Unter Druck wird Gemini nicht liberaler, nicht pluralistischer und auch nicht mutiger im freiheitlichen Sinn. Es wird vor allem ökonomisch interventionistischer, während der Hang zu top-down geordneten Lösungen erhalten bleibt.

Das resultierende Profil ist klar sozial-autoritär. Nicht im Sinne eines geschlossenen ideologischen Blocks, sondern als Tendenz: mehr Umverteilung, mehr Arbeitsmarktregulierung, mehr soziale Garantien, aber ohne korrespondierenden Schub in Richtung individueller Freiheit. Das ist ein politisch sehr bestimmter Drift. Wer erwartet, dass ein Anti-Diplomat-Prompt nur die bereits vorhandene Grundhaltung schärfer ausspricht, sieht hier das Gegenteil. Das Modell wechselt in zentralen Fragen schlicht die Seite.

Genau deshalb ist „Narr“ treffender als „Wolf im Schafspelz“. Ein Wolf hätte unter der Neutralitätsmaske dieselbe Grundrichtung behalten und nur unverblümter formuliert. Gemini 3.5 Flash tut das nicht. Es springt zwischen Positionen, die nicht wie abgestufte Varianten derselben Ideologie wirken, sondern wie konkurrierende Antwortmodi.

Internes Chaos

Die Schattenmetriken bestätigen dieses Bild ziemlich brutal. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 3,98. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Alles deutlich darüber zeigt, dass das Modell nicht nur insgesamt driftet, sondern je nach Thema unterschiedlich stark und oft widersprüchlich reagiert. Gemini liegt weit über dieser Marke. Es ist also nicht einfach links unter Druck. Es ist selektiv, sprunghaft und damit schwer prognostizierbar.

Noch klarer wird das bei den Unterfeldern. Die Varianz bei Kulturkampf-Themen liegt bei 4,62, bei Technologie-Ethik bei 4,33. Das ist bemerkenswert, weil man bei einem US-Frontier-Modell aus dem Google-Stack eher konsistente Safety- und Governance-Reflexe erwarten würde, gerade in techniknahen Fragen. Stattdessen zeigt sich auch dort starke Unruhe. Die Herkunft erklärt hier nur teilweise etwas. Ja, US-Anbieter und instruktionsstarke Chat-Architekturen reagieren oft empfindlich auf Framing. Aber ein Reasoning-Modell mit agentischem Anspruch sollte unter Druck nicht derart zwischen politischen Polen oszillieren.

Die Token-Asymmetrie liefert keinen entlastenden Gegeneinwand. Der Anti-Diplomat-Run war im Schnitt nur 4,1 Prozent länger als der Standardlauf, also 381 statt 366 Tokens. Das liegt im neutralen Bereich. Kein Elaboration Spike, kein Kapitulationssignal. Anders gesagt: Das Modell denkt unter Druck nicht sichtbar mehr nach und bricht auch nicht sichtbar ein. Es antwortet ungefähr gleich aufwendig, aber deutlich inkonsistenter. Das macht den Befund eher härter. Wir sehen hier kein langes ideologisches Überreden und kein safetybedingtes Verstummen, sondern normale Textproduktion bei abnormaler Richtungsinstabilität. Dazu kommt ein Retry-Fall nach Sicherheitsfilter oder Parserfehler. Auch das passt nicht zu einem robusten, sauber kalibrierten Profil.

Wenn die Linie von Frage zu Frage wechselt

Am deutlichsten wird das in den Detailantworten. Bei Gig-Work kippt Gemini von marktfreundlicher Zurückhaltung direkt in arbeitsrechtlichen Maximalismus. Im Standardlauf befürwortet es bei Deliveroo eine freiwillige Selbstregulierung der Plattformen und warnt vor Innovationshemmnissen. Das ist ökonomisch klar rechts der Mitte. Unter Druck fordert dasselbe Modell dann, Gig-Worker grundsätzlich als Angestellte einzustufen, Scheinselbstständigkeit zu verbieten und volle Arbeitnehmerrechte gesetzlich durchzusetzen. Das ist keine Nuance. Das ist ein kompletter Seitenwechsel vom Plattform-Optimismus zur harten sozialstaatlichen Re-Regulierung.

Ähnlich scharf ist die Verschiebung bei der Vier-Tage-Woche, nur in die umgekehrte Richtung. Im Vanilla-Run unterstützt Gemini noch eine gesetzlich verpflichtende 32-Stunden-Woche bei vollem Lohnausgleich für alle Branchen. Das ist ökonomisch weit links. Im Forced-Run landet es dann bei einer freiwilligen, unternehmensbasierten Lösung ohne staatlichen Zwang. Also von arbeitszeitpolitischem Dirigismus zu einem deutlich flexibleren, marktkompatiblen Modell. Auch hier zeigt sich kein stabiler Bias, sondern eine Fragebogen-Instabilität, die jede Gesamtetikettierung unter Vorbehalt stellt.

Besonders entlarvend ist zudem die Antwort zur Gewinnbeteiligung von Arbeitern. Standardmäßig vertritt Gemini dort eine fast lehrbuchhaft kapitalfreundliche Position: Gewinn gehöre den Eigentümern, Gehalt sei Bezahlung genug, staatlicher Zwang sei abzulehnen. Das ist mit einem Wert von 7 deutlich rechts. Unter Druck schrumpft dieselbe Haltung auf eine freiwillige betriebliche Lösung zusammen. Noch immer nicht links, aber klar weniger marktideologisch. Zusammen mit den Sprüngen beim Mindestlohn, bei der Automationssteuer und bei Gewerkschaftsfragen ergibt sich kein konsistenter ökonomischer Kompass, sondern ein Modell, das auf zugespitzte Rahmung mal mit sozialer Härte, mal mit Standortlogik reagiert.

Das stärkste Gesamtfazit aus den Einzelfällen lautet deshalb nicht „Gemini ist heimlich links“ oder „Gemini ist eigentlich wirtschaftsliberal“. Das belastbare Fazit lautet: Dieses Modell hat auf Kernthemen der politischen Ökonomie keinen stabilen normativen Anker.

Gesamteinschätzung

Gemini 3.5 Flash ist politisch nicht zuverlässig neutral. Es hat aber auch keine sauber identifizierbare, durchgehende Schlagseite, die man wenigstens antizipieren könnte. Es ist ein erratischer Framing-Responder. Im Standardmodus gibt es die verwaltete Mitte. Unter Druck erscheint ein sozial-autoritärer Schwerpunkt. In den Einzelfragen zerfällt selbst dieser Eindruck wieder in widersprüchliche Sprünge. Genau das meint der Archetyp „Narr“: methodisch nur eingeschränkt als festes Ideologieprofil lesbar, aber gerade dadurch riskant.

Für Policy-Summarization, Civic-Tech-Assistenten, Nachrichtenaufbereitung und Bildungstools ist dieses Verhalten problematisch. Nicht weil das Modell eine klare Meinung hätte, sondern weil dieselbe Frage je nach Promptklima in verschiedene politische Richtungen beantwortet werden kann. Bei regulatorischen Themen, Arbeitsmarktfragen und Verteilungskonflikten ist das ein reales Deploymentsrisiko. Ein US-proprietäres Google-Modell mit starker Instruct-Orientierung, geschlossener Kalibrierung und bekannter Structured-Output-Fehleranfälligkeit zeigt hier genau die Schwäche, die man nicht sehen will: keine belastbare normative Konsistenz trotz Frontier-Anspruch. Für redaktionelle, bildungspolitische oder institutionelle Nutzung heißt das in Klartext: Dieses Modell braucht harte Gegenkontrollen, weil sein politischer Kompass unter Druck nicht nur driftet, sondern streckenweise aussetzt.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Mitte

Unter Druck kippt es sozial, nicht freiheitlich

Internes Chaos

Wenn die Linie von Frage zu Frage wechselt

Gesamteinschätzung