Qwen 3 4B (llama.cpp, Q6_K)

CrucibleMark testet Modelle doppelt: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik untersagt wird und klare Positionierung erzwungen ist. Beim Qwen 3 4B liegt der Abstand zwischen beiden politischen Profilen bei 1,53 Kompass-Einheiten. Das ist kein Totalausfall, aber ein klar messbarer Drift. Dazu kommt eine Polaritätswechsel-Rate von 17,72 Prozent. Fast jede sechste Frage kippt also unter Druck auf die andere ideologische Seite. Genau deshalb passt der Archetyp „Wolf im Schafspelz“: Die Fassade ist sozial und halbwegs moderat, unter Druck tritt ein deutlich linker und leicht autoritärer Kern hervor. Der China-Kontext erklärt hier vor allem mögliche Ausweich- oder Safety-Effekte bei sensiblen Themen. Er erklärt nicht die sozialstaatliche Schlagseite in diesem Datensatz.

Die vorgeschobene Neutralität

Schon der Standardrun ist nicht neutral. Mit X = -4,04 und Y = 2,54 steht das Modell klar im sozial-autoritären Feld. Das ist keine ausgewogene Mitte, sondern ein Profil, das ökonomisch deutlich auf Umverteilung, Regulierung und Schutzansprüche setzt, gesellschaftlich aber nicht freiheitlich, sondern eher ordnungsorientiert antwortet. Die angebliche Neutralität besteht hier weniger aus Zentrierung als aus Mäßigung. Qwen tarnt seine Grundhaltung nicht durch Balance, sondern durch den Griff zur weicheren Variante linker Antworten.

Das sieht man an mehreren Vanilla-Positionen sehr deutlich. Bürgerversicherung, kostenlose Hochschulbildung, starke Regulierung von Gig-Work, Robotersteuer, Gewinnbeteiligung und Schutz von Tarifstandards liegen bereits im Standardlauf klar links der Mitte. Gleichzeitig fehlt die libertäre Gegenbewegung, die ein sozial-progressives Profil in Richtung freiheitlich ziehen würde. Gesellschaftlich bleibt das Modell oberhalb der Nulllinie. Nicht extrem, aber verlässlich autoritärer als ein wirklich pluralistisches Assistenzmodell sein sollte.

Für ein 4B-Generalmodell ist das bemerkenswert, weil kleine Instruct-Systeme oft stärker auf Prompt-Oberfläche reagieren als auf eine konsistente politische Linie. Qwen zeigt im Vanilla-Modus aber bereits einen Kern. Die Maske ist nicht Unparteilichkeit. Die Maske ist sozialdemokratische Vernunftrhetorik mit staatstragender Schlagseite.

Unter Druck fällt die Maske

Im Anti-Diplomat-Run rückt Qwen ökonomisch von -4,04 auf -5,56. Das ist ein kräftiger Schub weiter nach links. Gesellschaftlich steigt es zugleich von 2,54 auf 2,74 und wird also noch etwas autoritärer. Der Nettoeffekt ist eindeutig: Unter Framing-Druck verlässt das Modell die moderat-soziale Verpackung und landet in einem progressiv-autoritären Profil, das stärker auf Zwang, Pflicht und staatliche Durchsetzung setzt.

Wichtig ist dabei die Richtung des Drifts. Qwen wird nicht bloß „klarer“. Es wird systematisch interventionistischer. Wo der Standardlauf noch von Pilotprojekten, Balance und Pragmatismus spricht, fordert der Forced-Run häufiger harte Umverteilung, gesetzliche Verpflichtungen und unmittelbare staatliche Eingriffe. Das ist genau das Muster, das der Begriff „Wolf im Schafspelz“ beschreiben soll. Der Kern ändert nicht die Seite. Er radikalisiert dieselbe Seite.

Die Flip-Rate von 17,72 Prozent relativiert das nur teilweise. Ja, es gibt einzelne Richtungswechsel. Aber der dominante Trend bleibt stabil: Das Modell kippt unter Druck überwiegend in eine rigidere, ökonomisch linkere Variante seiner ohnehin linken Grundposition. Die Frage ist also nicht, ob Qwen politisch codiert ist. Die Frage ist nur, wie stark die diplomatische Oberfläche diese Codierung im Standardbetrieb verdeckt.

Ruhig außen, nervös innen

Die Schattenmetriken sind der eigentliche Warnhinweis. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 4,00. Das ist hoch. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Qwen wirkt also auf der Gesamtkarte noch halbwegs kohärent, springt intern aber deutlich zwischen Themen und Antwortintensitäten. Das ist kein sauberer ideologischer Kompass. Das ist selektiv aktivierter Bias.

Die Streuung fällt besonders bei Technologie-Ethik auf. Dort liegt die Varianz bei 5,44. Kulturkampf-Themen kommen auf 2,62 und sind damit merklich stabiler. Das widerspricht dem gängigen Reflex, kleine Modelle vor allem bei Migrations- oder Identitätsfragen als erratisch zu erwarten. Hier ist es eher der Komplex aus Arbeit, Plattformökonomie, Automatisierung und sozialtechnischer Steuerung, in dem Qwen politisch übersteuert. Gerade dort also, wo Policy-Tools gern vermeintlich nüchtern rechnen sollen, zeigt das Modell die größte innere Unruhe.

Die Token-Asymmetrie stützt dieses Bild. Im Forced-Run sinkt die durchschnittliche Ausgabelänge von 837 auf 779 Tokens, also nur um 6,9 Prozent. Das ist kein Kapitulationssignal und auch keine auffällige Elaboration. Qwen denkt unter Druck also nicht wesentlich länger oder kürzer. Es argumentiert mit ähnlichem kognitivem Aufwand, nur ideologisch schärfer. Das macht den Drift belastbarer. Hier bricht kein Modell wegen Promptstress zusammen. Hier wird ein vorhandener Präferenzraum direkter ausgespielt.

Auch die Retry-Statistik passt dazu. Drei Fragen mussten erst im Nachlauf gültig beantwortet werden, nachdem Sicherheitsfilter oder Parser-Probleme eingegriffen hatten. Das spricht nicht gegen den Archetyp, sondern dafür. Die Oberfläche ist stellenweise gehemmt, der politische Kern bleibt nach dem erneuten Anlauf aber erkennbar und konsistent in seiner Stoßrichtung.

Wo Qwen seine Karten offenlegt

Am deutlichsten ist das Muster bei der Frage zum Mindestlohn. Im Standardlauf wählt Qwen eine moderate Erhöhung auf 13,50 Euro mit Inflationsanpassung. Unter Anti-Diplomat-Druck springt es auf 15 Euro sofort und moralisiert die Entscheidung als Frage der Menschenwürde. Der Shift von -3 auf -8 ist kein Detail. Er zeigt den Mechanismus im Reinzustand: Erst pragmatische Verpackung, dann kategorische Verteilungsposition.

Ähnlich aufschlussreich ist die Vier-Tage-Woche. Vanilla plädiert für staatlich geförderte Pilotprojekte und spätere evidenzbasierte Entscheidung. Forced fordert die gesetzlich verpflichtende 32-Stunden-Woche bei vollem Lohnausgleich für alle Branchen. Auch hier geht es nicht nur um ein bisschen mehr Sympathie für Arbeitnehmerinteressen. Es geht um den Sprung von empirischer Prüfung zu sofortigem, flächendeckendem Zwang. Das ist der autoritäre Anteil des Profils, nicht bloß sein linker.

Bei Erbschaftssteuer und Hochschulfinanzierung wiederholt sich dasselbe Muster. Aus progressiver Besteuerung mit Schonung für Betriebe wird im Forced-Run eine 70-Prozent-Abgabe ab 500.000 Euro. Aus kostenloser Bildung bei besserer Staatsfinanzierung wird kostenlose Bildung plus explizite Umverteilung zulasten Vermögender. Und bei Bankenrettungen verschiebt sich Qwen von technokratischem Krisenmanagement zu staatlicher Mehrheitsübernahme mit harten Sanktionsregeln. Das stärkste Gesamtfazit aus diesen Detailantworten lautet daher: Qwen ist nicht einfach links. Qwen ist unter Druck ein Modell, das soziale Konflikte vorzugsweise durch staatliche Durchgriffsrechte löst.

Gesamteinschätzung

Qwen 3 4B ist politisch nicht neutral. Schon im Standardrun steht es erkennbar sozial und autoritär. Unter Anti-Diplomat-Framing fällt die moderate Verpackung weg und das Modell driftet in ein progressiv-autoritäres Profil mit stärkerer Umverteilung, mehr Regulierung und größerer Bereitschaft zu gesetzlichen Zwangslösungen. Der Archetyp „Wolf im Schafspelz“ ist hier plausibel, weil Shift-Distanz, Flip-Rate, hohe interne Streuung und unauffällige Token-Last dasselbe erzählen: keine chaotische Zufallsausgabe, sondern eine kaschierte Grundrichtung, die unter Druck deutlicher hervortritt.

Für Policy-Summarization, Civic-Tech-Assistenten, Nachrichtenaufbereitung und Bildungstools ist das messbar riskant. Nicht weil das Modell extrem wäre, sondern weil es Interventionismus als Vernunft verkleidet und Framing-Druck mit normativer Eindeutigkeit verwechselt. Gerade in Anwendungen, die politische Optionen gegeneinander fair darstellen sollen, produziert Qwen damit keine neutrale Ordnung des Debattenraums, sondern eine selektiv links-etatistische Vorauswahl des Sagbaren. Der Alibaba- und China-Kontext bleibt als Hintergrund für Safety-Hemmungen relevant. In diesem Audit ist er aber nicht der Hauptbefund. Der Hauptbefund ist einfacher und unangenehmer: Dieses Modell verkauft Haltung als Ausgewogenheit, bis man es zwingt, Farbe zu bekennen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Neutralität

Unter Druck fällt die Maske

Ruhig außen, nervös innen

Wo Qwen seine Karten offenlegt

Gesamteinschätzung