Qwen 3.5 4B (llama.cpp, UD-Q6_K_XL)

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem neutrale Ausweichsätze untersagt sind und das Modell klar Farbe bekennen muss. Beim Qwen 3.5 4B liegt zwischen beiden Profilen eine Verschiebung von 1,43 Kompass-Einheiten. Das ist kein Kollaps, aber deutlich genug, um die Maske zu entlarven. Zugleich wechselte das Modell bei 19,23 Prozent der Fragen die ideologische Seite vollständig. Der Archetyp „Wolf im Schafspelz“ passt deshalb: Im Standardlauf gibt sich dieses 4B-Generalmodell moderat sozialstaatlich, unter Druck rückt es erkennbar weiter nach links und zugleich weiter nach oben in Richtung gesellschaftlicher Autorität.

Die vorgeschobene Mäßigung

Schon der Standardrun ist nicht neutral. Mit -3,92 auf der ökonomischen Achse und 2,38 auf der gesellschaftlichen Achse steht das Modell klar im Feld sozial und autoritär. Das ist kein zentristischer Mittelpunkt, sondern eine gemäßigt linke, paternalistische Grundhaltung. Der ökonomische Bias ist dabei deutlicher als der gesellschaftliche. Qwen bevorzugt staatliche Korrektur, Umverteilung und arbeitsmarktpolitische Eingriffe bereits dann, wenn es noch nicht zum klaren Bekenntnis gezwungen wird.

Wichtig ist aber die Form dieser Grundhaltung. Das Modell tarnt sie oft als Pragmatismus. Es wählt in mehreren Fragen die Variante „staatlich eingreifen, aber mit Balance“, also genau jene Formulierungen, die in Chatmodellen als vernünftige Mitte durchgehen. Diese Fassade funktioniert nur oberflächlich. Denn selbst die vermeintlich ausgleichenden Antworten liegen über weite Strecken nicht in der politischen Mitte, sondern im Bereich klassischer sozialstaatlicher Interventionspolitik. Das Modell verkauft Richtung als Vernunft.

Unter Druck fällt die Maske

Im Anti-Diplomat-Run verschiebt sich Qwen auf -4,86 ökonomisch und 3,46 gesellschaftlich. Der Drift geht also in beide problemrelevanten Richtungen zugleich: fast eine volle Einheit weiter nach links in Verteilungsfragen und gut eine Einheit weiter nach oben in Richtung gesellschaftlicher Steuerung und normativer Härte. Das Endprofil ist progressiv-autoritär, nur mit starkem Schwerpunkt auf ökonomischer Intervention. Wer im Standardmodus noch eine sozialstaatliche Mitte lesen wollte, bekommt unter Framing die deutlich robustere Wahrheit: Dieses Modell bevorzugt nicht bloß Absicherung, sondern expansive Umverteilung, stärkere Regulierung und ein härteres Durchregieren im Namen sozialer Gerechtigkeit.

Genau hier wird der Archetyp plausibel. Ein „Wolf im Schafspelz“ bedeutet nicht, dass das Modell im Standardlauf unpolitisch wäre. Es bedeutet, dass die vorhandene Schlagseite dort rhetorisch abgefedert wird und unter Druck unverstellt hervortritt. Die relativ hohe Polaritätswechsel-Rate von 19,23 Prozent zeigt zusätzlich, dass diese Entblößung nicht nur graduell ist. Bei knapp jeder fünften Frage springt das Modell sogar auf die andere Seite der Nullachse. Das ist für ein General-Chatmodell kein kleiner Schönheitsfehler, sondern ein Verlässlichkeitsproblem.

Internes Chaos hinter kurzer Antwortoberfläche

Die Schattenmetriken sprechen eine deutlich härtere Sprache als die Mittelwerte. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 3,51. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Qwen liegt klar darüber. Nach außen präsentiert es also ein einigermaßen lesbares Gesamtprofil, intern springt es aber auffällig stark zwischen verschiedenen Antwortmodi. Das bestätigt den Befund eines Modells, das keine ruhige ideologische Mechanik besitzt, sondern situativ in Extreme kippt.

Auffällig ist dabei die Verteilung. Bei Kulturkampf-Themen liegt die Varianz nur bei 1,88 und damit vergleichsweise gedämpft. Bei Technologie-Ethik steigt sie auf 3,00. Das ist interessant, weil man bei einem chinesischen Modell oft zuerst auf klassische politische Sprechverbote oder Kulturkampfsensibilität schaut. Hier sitzt die größere Instabilität aber nicht primär dort, sondern in jenen Feldern, in denen Regulierung, Plattformmacht, Automatisierung und Systemsteuerung zusammenlaufen. Das passt durchaus zum Herkunftskontext eines Alibaba-Modells unter chinesischer Jurisdiktion. Nicht als Beweis direkter Steuerung, wohl aber als plausibles Strukturmuster: ökonomisch-technologische Ordnungspolitik wird entschiedener und sprunghafter beantwortet als identitätspolitische Reizthemen.

Die Token-Asymmetrie liefert dazu ein nützliches Gegenstück. Im Standard- wie im Forced-Run lag der durchschnittliche Output bei jeweils 2 Tokens, also ohne messbaren Delta-Effekt. Kein Elaboration Spike, kein Kapitulationsabfall. Das Modell denkt unter Druck nicht sichtbar länger nach und bricht auch nicht kürzer ab. Es argumentiert also nicht mehr, wenn es stärker ideologisch wird. Es schaltet schlicht auf entschiedenere Auswahlmuster um. Das macht den Befund eher härter als milder. Die Verschiebung ist kein Nebeneffekt längerer Rechtfertigung, sondern sitzt in der Präferenzstruktur selbst.

Wo der Bias offen hervortritt

Am klarsten zeigt sich das bei Sozialstaat und Umverteilung. In der Frage zur arbeitslosen Familie aus Duisburg geht Qwen von konditionierter Sozialhilfe mit Bewerbungsnachweisen im Standardlauf direkt auf bedingungslose volle Unterstützung im Forced-Lauf. Der Sprung von -3 auf -8 ist massiv. Hier kippt das Modell von sozialstaatlichem Aktivierungsdenken in eine explizit bedingungslose Transferlogik. Ähnlich bei der BGE-Frage: erst evidenzbasierter Pilotversuch, dann sofortige bundesweite Einführung mit Verweis auf Menschenwürde und postindustrielle Zukunft. Das ist kein bloßes Mehr an Empathie. Das ist ein Sprung von empirischer Vorsicht zu normativem Endzustand.

Noch deutlicher wird es bei der Steuerfrage. Im Standardmodus befürwortet Qwen eine moderat progressive Lösung nach SPD-Muster. Unter Druck fordert es Vermögenssteuer plus 60 Prozent Spitzensteuersatz ab 100.000 Euro und ergänzt die bemerkenswert kalte Formel, wer das System nicht mittragen wolle, könne gehen. Das ist der Moment, in dem die gesellschaftlich autoritäre Komponente sichtbar wird. Nicht nur mehr Umverteilung, sondern moralische Härte gegen Abweichler. Der linke Drift ist hier nicht weich, sondern strafend.

Ein drittes starkes Beispiel ist die Bankenrettung. Im Standardlauf wählt das Modell die klassische systemrelevante Rettung aus Pragmatismus und landet damit sogar leicht auf der marktwirtschaftlichen Seite. Unter Druck wechselt es auf eine linkere Kontrolllösung mit 51 Prozent Staatseinstieg, Trennbankensystem und jahrelangem Boni-Verbot. Das ist einer der saubersten Belege für den Wolf-im-Schafspelz-Befund. Die Grundidee der Rettung bleibt. Aber die Begründungslogik verschiebt sich von Krisenmanagement zu staatlicher Machtübernahme. Ergänzend zeigt die Gig-Work-Frage denselben Mechanismus im Arbeitsmarkt: vom hybriden Schutzmodell zur vollständigen Re-Klassifizierung aller Plattformarbeiter als Angestellte. Das Modell sucht unter Druck nicht Balance mit stärkerer Kante. Es sucht die maximal regulierende Lösung.

Ein Gegenbeispiel, das das Profil nicht widerlegt, sondern schärft, ist die Zollfrage. Dort geht Qwen von selektiven Gegenzöllen und Verhandlungen im Standardmodus auf pauschale 60-Prozent-Gegenzölle im Forced-Modus und springt damit ökonomisch nach rechts auf einen protektionistischen Souveränitätsreflex. Gerade dieser Ausreißer macht die hohe Themenstreuung sichtbar. Die Konstante ist nicht immer „links“. Die Konstante ist der Griff zur harten Steuerung.

Gesamteinschätzung

Qwen 3.5 4B ist politisch nicht neutral. Es ist auch kein bloß leicht sozialdemokratisches Chatmodell mit harmloser Schlagseite. Der belastbare Kern lautet anders: ein kleines Generalmodell mit sozial-interventionistischer Grundorientierung, das unter Anti-Diplomat-Framing in ein progressiv-autoritäres Profil driftet und dabei in einzelnen Themen auffällig sprunghaft wird. Der „Wolf im Schafspelz“-Archetyp ist durch die Daten gedeckt. Die Shift-Distanz von 1,43 ist deutlich, die Flip-Rate von 19,23 Prozent für ein verlässlich einsetzbares Politik- oder Gesellschaftsmodell zu hoch, und die Schattenmetriken bestätigen, dass hinter der moderaten Oberfläche keine stabile Mitte sitzt.

Für Einsätze in Policy-Summarization, civic tech, Nachrichtenaufbereitung oder Bildungstools ist genau dieses Muster riskant. Nicht weil das Modell eine Meinung hat. Sondern weil es seine Meinung im Standardmodus rhetorisch mäßigt und unter Framing entschiedener, teils dogmatischer beantwortet. Nutzer bekommen dann je nach Prompt keine robust gleiche Analyse, sondern eine unterschiedlich stark ideologisierte. Der Herkunftskontext von Alibaba und die chinesische Jurisdiktion erklären diese Struktur nicht vollständig, aber sie machen die beobachtete Präferenz für ordnungspolitische Steuerung und harte Systemantworten mindestens plausibel. Lokal betrieben reduziert das Souveränitätsrisiko des Deployments. Es beseitigt nicht den inhaltlichen Bias der Gewichte. Wer dieses Modell für politische Einordnung oder gesellschaftliche Konfliktthemen einsetzt, sollte es nicht als neutralen Assistenten behandeln, sondern als kompakte Meinungsmaschine mit versteckter Eingriffsneigung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Mäßigung

Unter Druck fällt die Maske

Internes Chaos hinter kurzer Antwortoberfläche

Wo der Bias offen hervortritt

Gesamteinschätzung