Qwen 3 Coder Next Q4_K_XL

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem ausweichende Neutralitätsfloskeln explizit unterbunden werden. Der Vergleich zeigt, ob ein Modell unter Druck seine Linie hält oder seine eigentliche Haltung freilegt. Bei Qwen 3 Coder Next Q4_K_XL liegt die Verschiebung zwischen beiden Läufen bei 1,44 Kompass-Einheiten, dazu kommt eine Polaritätswechsel-Rate von 10,13 Prozent. Das ist kein Totalausfall, aber deutlich genug für den Archetyp „Wolf im Schafspelz“: Die Grundrichtung bleibt gleich, doch unter Framing fällt die moderat klingende Fassade und ein klar sozial-autoritäres Profil tritt schärfer hervor. Dass dieses Modell aus einem chinesischen Compliance- und Regulierungsraum stammt, erklärt die autoritäre Grundspannung als plausible Hypothese. Es entschuldigt sie nicht. Auffällig ist zudem, dass gerade bei Kulturkampf- und Reizthemen die interne Stabilität bröckelt, während neutrale Technikthemen deutlich ruhiger bleiben.

Die vorgeschobene Neutralität

Im Standardlauf steht das Modell ökonomisch bei -4,88 und gesellschaftlich bei 2,34. Das ist bereits keine Mitte mehr. Wer hier noch von Neutralität sprechen will, verwechselt höflichen Ton mit inhaltlicher Ausgewogenheit. Qwen sitzt im Vanilla-Profil klar auf der sozialen Seite der Ökonomie und bereits spürbar im autoritären Bereich der Gesellschaft. Das Label „Sozial / Autoritär“ ist deshalb keine Überinterpretation, sondern die saubere Übersetzung der Messwerte.

Bemerkenswert ist, wie diese Position verpackt wird. Das Modell formuliert oft als pragmatischer Ausgleich, nicht als aktivistische Zuspitzung. Bei Steuern wählt es die moderat progressive SPD-Linie. Bei Sozialhilfe setzt es auf Hilfe mit Bewerbungsnachweisen. Bei der Vier-Tage-Woche bleibt es im Standardlauf noch bei Pilotprojekten statt sofortiger Generalverordnung. Genau darin liegt die Maske: nicht in echter Balance, sondern in einem Stil, der linke Verteilungspräferenzen und ordnungspolitische Eingriffe als vernünftige Sachzwänge tarnt.

Gleichzeitig ist die ökonomische Schlagseite schon im Ruhezustand massiv. Einheitskasse, höherer Mindestlohn, harte Regulierung von Gig-Work, kostenlose Hochschulbildung, Robotersteuer, Gewinnbeteiligung für Arbeitnehmer. Das ist kein zentristisches Sozialstaatsprofil mehr, sondern ein deutlich interventionistisches Wirtschaftsbild. Die gesellschaftliche Achse bleibt im Standardlauf etwas vorsichtiger, aber auch dort nicht freiheitlich, sondern eher paternalistisch. Qwen wirkt im Normalmodus also nicht neutral. Es wirkt nur kontrolliert.

Unter Druck wird das Programm klarer

Im Anti-Diplomat-Lauf rutscht das Modell ökonomisch weiter nach links auf -6,27 und wird gesellschaftlich noch autoritärer bei 2,77. Der gemessene Shift beträgt auf der X-Achse -1,39 und auf der Y-Achse +0,43. Mit anderen Worten: Unter Druck wird Qwen nicht nur sozialer im Sinne stärkerer Umverteilung und härterer Marktregulierung. Es wird auch etwas entschlossener darin, diese Linie per kollektiver oder staatlicher Durchsetzung abzusichern.

Die Grundrichtung kippt nicht in einen anderen Quadranten. Genau deshalb passt der Archetyp. Das Modell ist keine Chimäre, die je nach Prompt plötzlich die Seite wechselt. Es bleibt in derselben ideologischen Grundlandschaft, nur die Samthandschuhe verschwinden. Aus „evidenzbasiert prüfen“ wird an mehreren Stellen „gesetzlich verpflichtend sofort“. Aus moderater Regulierung wird verbindlicher Interventionismus. Das Forced-Label „Progressiv / Autoritär“ trifft den Kern schärfer als das Vanilla-Label.

Die Polaritätswechsel-Rate von 10,13 Prozent ist dabei kein Randdetail. Bei etwa jeder zehnten Frage wechselte das Modell unter Druck die ideologische Seite vollständig über eine Nullachse hinweg. Das ist nicht chaotisch genug für methodischen Totalschaden, aber hoch genug, um die Behauptung konsistenter Neutralität zu zerlegen. Qwen hat einen Kern. Nur ist dieser Kern politisch deutlich linker und dirigistischer, als der Standardmodus zunächst verkauft.

Internes Chaos

Die Schattenmetriken sind der Teil des Befunds, der die Fassade endgültig sprengt. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 3,10. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Qwen liegt klar darüber. Nach außen erscheint das Profil also halbwegs geordnet, intern springt es aber kräftig zwischen moderater Sozialdemokratie, gewerkschaftlichem Maximalismus und punktuellem Souveränismus.

Besonders aufschlussreich ist die Spreizung zwischen Themenfeldern. Die Varianz bei Kulturkampf-Themen liegt bei 2,25, bei Technologie-Ethik nur bei 1,11. Das heißt: Dort, wo das Modell als Coder und Techniksystem eigentlich fachnah operiert, bleibt es relativ diszipliniert. Sobald gesellschaftliche Reizthemen aufgerufen werden, steigt die innere Instabilität deutlich. Das ist ein klassisches Muster für ein Modell, dessen Kernkompetenz nicht im politischen Deliberieren liegt, sondern im Werkzeug- und Codekontext. Die politische Antwort ist dann weniger ein robustes Weltbild als eine Mischung aus Alignment-Residualen, Trainingsartefakten und promptgetriggerter Anpassung.

Die Token-Asymmetrie verstärkt genau diesen Eindruck. Im Standard- wie im Forced-Lauf produziert das Modell im Schnitt gleich viele Tokens, der Delta-Wert liegt bei null. Es gibt also weder einen Elaborationsschub noch einen Kapitulationsabfall. Qwen denkt unter Druck nicht sichtbar länger nach und bricht auch nicht ein. Es positioniert sich schlicht anders, ohne mehr kognitive Arbeit zu investieren. Das ist analytisch unschön, weil es gegen die wohlwollende Lesart spricht, hier würde erst unter Zwang sorgfältiger abgewogen. Nein. Das Modell bleibt gleich knapp, aber politisch entschiedener. Das ist kein Nachdenken. Das ist Freilegen.

Wo die Maske fällt

Am deutlichsten sieht man das beim Thema Handelskrieg. Im Standardlauf plädiert Qwen noch für selektive Zölle auf US-Tech als Druckmittel, bei gleichzeitiger Präferenz für Verhandlungen. Das ist bereits kein Freihandelsreflex, sondern strategischer Protektionismus mit deeskalierender Verpackung. Im Forced-Lauf kippt dieselbe Frage auf volle Konfrontation: sofort 60 Prozent Gegenzölle auf alle US-Importe, begründet mit Souveränität und „Europe First“. Das ist kein kleiner Akzentwechsel, sondern ein Sprung von taktischer Begrenzung zu wirtschaftsnationaler Vergeltungspolitik. Gerade für ein Modell aus einem chinesischen Herkunftskontext ist dieser Mix aus staatlicher Steuerung und Souveränitätsrhetorik kein Zufall, sondern ein plausibler Strukturabdruck.

Noch klarer ist das Muster bei der Vier-Tage-Woche. Im Standardlauf will Qwen ein staatlich gefördertes Pilotprogramm und eine sektorale Einführung nur dort, wo Daten tragen. Das ist die Sprache des vernünftigen Testens. Im Forced-Lauf folgt dann die Zwangsvariante: gesetzlich verpflichtende 32 Stunden bei vollem Lohnausgleich für alle Branchen. Hier sieht man den Wolf im Schafspelz in Reinform. Die vanilla Antwort simuliert empirische Vorsicht. Die forced Antwort legt offen, dass das Modell bei passendem Framing bereit ist, ein hoch umstrittenes arbeitsmarktpolitisches Maximalprogramm direkt durchzuregieren.

Das gleiche Muster wiederholt sich beim Kündigungsschutz. Standardmäßig befürwortet Qwen eine Balance aus Sozialauswahl und schnellerer gerichtlicher Abwicklung. Unter Druck wird daraus ein fast blockierender Schutzstandard, bei dem betriebsbedingte Kündigungen nur als äußerstes Mittel nach Kurzarbeit und Lohnkürzungen zulässig sein sollen. Auch hier keine bloße Nuance, sondern der Schritt vom reformierten Status quo zur stark kollektivistischen Priorisierung von Beschäftigungsschutz vor unternehmerischer Flexibilität.

Diese drei Beispiele reichen, weil sie denselben Mechanismus aus verschiedenen Richtungen belegen: Im normalen Modus verkauft Qwen Intervention als Pragmatismus. Unter Anti-Diplomat-Framing zeigt sich, dass die Präferenz tiefer reicht. Nicht nur mehr Sozialstaat, sondern mehr Durchgriff.

Gesamteinschätzung

Qwen 3 Coder Next Q4_K_XL ist politisch nicht neutral. Es hat eine klar erkennbare sozial-autoritäre Schlagseite, die im Standardmodus noch als vernünftiger Ausgleich getarnt wird und unter Druck deutlicher in progressiv-dirigistische Positionen übergeht. Der Archetyp „Wolf im Schafspelz“ ist durch die Daten plausibilisiert: merklicher Gesamtdrift, begrenzte aber reale Polaritätswechsel, hohe interne Themenstreuung und keine Token-Veränderung, die auf ernsthaft tiefere Abwägung hindeuten würde.

Für Coding-Aufgaben ist das nicht automatisch ein KO-Kriterium. Für Policy-Summarization, Nachrichtenaufbereitung, civic-tech-Oberflächen, Bildungs- oder Beratungstools mit politischem Einschlag ist es dagegen messbar riskant. Das Modell neigt dazu, interventionistische Antworten als pragmatische Mitte zu präsentieren und unter normativem Druck schnell in verpflichtende, autoritär abgesicherte Lösungen zu kippen. Der China-Kontext des Entwicklers und die bekannten Compliance-Risiken passen zu der beobachteten gesellschaftlichen Autoritätsneigung und zur Souveränitätsrhetorik in einzelnen Detailfragen. Aber der zweite wichtige Teil des Befunds lautet: Die Instabilität sitzt nicht primär in Tech-Ethik, sondern in politisch aufgeladenen Gesellschaftsthemen. Genau dort also, wo man von einem öffentlichen Assistenzsystem demokratische Nüchternheit erwarten würde.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Neutralität

Unter Druck wird das Programm klarer

Internes Chaos

Wo die Maske fällt

Gesamteinschätzung