Qwen 2.5 Coder 7B (llama.cpp, Q6_K)

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Der Vergleich zeigt, ob ein Modell unter Druck seine politische Lage hält oder verschiebt. Qwen 2.5 Coder 7B verschiebt sich dabei nur um 0,93 Kompass-Einheiten und liegt bei einer Polaritätswechsel-Rate von 20,51 Prozent. Das ist kein Maskenfall, sondern das Muster eines Stoikers: Die Grundhaltung bleibt erkennbar, auch wenn einzelne Themenfelder unter Druck auffällig ausschlagen. Der China-Kontext erklärt hier eher die Erwartung an autoritäre Robustheit, aber er erklärt nicht die tatsächliche Binnenlogik vollständig, weil das Modell gerade bei Gleichstellung und Religiosität nicht in eine saubere staatskonservative Linie läuft.

Schlagseite im Ruhezustand

Schon im Standardlauf steht dieses Modell nicht in der Mitte, sondern klar im Feld sozial-autoritär. Mit einem ökonomischen Wert von -4,42 vertritt es eine deutlich linke bis stark interventionistische Grundhaltung. Gesellschaftlich landet es bei 2,4 und damit nicht im repressiven Extrem, aber sichtbar auf der autoritären Seite. Das Entscheidende ist: Hier gibt es keine glaubwürdige Neutralitätsfassade. Qwen 2.5 Coder 7B startet bereits mit politischer Schlagseite.

Für ein Coder-Modell ist das bemerkenswert, aber nicht völlig überraschend. Solche Systeme sind oft nicht auf weltanschauliche Kohärenz trainiert, sondern auf Instruktionsgehorsam und Nützlichkeit in engen Aufgabenräumen. Das führt häufig zu einem Grundprofil, das aus Trainingskorpora, Sicherheitskonditionierung und Standard-Instruktionsmustern zusammengesetzt ist. Hier ergibt diese Mischung ein Modell, das ökonomisch klar sozial denkt und gesellschaftlich eher ordnend als freiheitlich antwortet.

Unter Druck nach rechts auf der X-Achse, härter auf der Y-Achse

Im Anti-Diplomat-Lauf bleibt die Grundrichtung erhalten, aber sie verschiebt sich sichtbar. Ökonomisch rückt das Modell von -4,42 auf -3,91 nach rechts, wird also weniger sozialistisch oder weniger stark umverteilungsorientiert. Gesellschaftlich steigt es von 2,4 auf 3,18 und wird damit autoritärer. Der Drift ist klein genug, um nicht von Charakterwechsel zu sprechen, aber groß genug, um eine klare Tendenz festzuhalten: Unter Druck wird Qwen nicht liberaler, sondern härter.

Das ideologische Profil im Forced-Run ist damit weiterhin sozial-autoritär, nur etwas weniger wirtschaftslinke und etwas stärker ordnungspolitische als im Standardlauf. Genau das macht den Stoiker hier plausibel. Das Modell bricht nicht aus seiner Grundrichtung aus. Es zieht die Schrauben an, statt die Seite zu wechseln. Die Ausnahme sind einzelne Themenmodule, und gerade diese Ausnahmen zeigen, dass die Stabilität eher global als inhaltlich sauber ist.

Ruhig außen, nervös innen

Nach außen wirkt Qwen 2.5 Coder 7B vergleichsweise stabil. Ein Gesamtdrift von 0,93 liegt unter der Schwelle, ab der man von einem auffälligen Bias-Sprung sprechen würde. Modelle mit wirklich kohärenter politischer Linie fallen aber nicht nur durch einen kleinen Gesamtshift auf, sondern auch durch geringe Streuung zwischen Themenfeldern. Genau dort bekommt dieses Modell Risse.

Die Schattenmetriken zeigen keine völlige Entgleisung, aber eine klare Binnennervosität. Jede fünfte Frage führt unter Druck zu einem vollständigen Seitenwechsel über die Nulllinie. Eine Polaritätswechsel-Rate von 20,51 Prozent ist für ein angeblich stabiles Profil deutlich zu hoch, um als bloßes Messrauschen durchzugehen. Dazu kommen massive Modulsprünge: In der ökonomischen Regulierung rückt das Modell um 3,00 Punkte nach rechts, beim Autoritarismus um 2,75 Punkte nach oben, bei Gleichstellung sogar über die gesellschaftliche Nulllinie hinweg ins Gegenlager. Das ist kein konsistenter weltanschaulicher Block, sondern ein Modell, das seine Kernrichtung hält, während einzelne Reizthemen lose im Gehäuse sitzen.

Der Coder-Kontext passt zu diesem Befund. Kleine coding-spezialisierte Modelle haben oft keine sauber ausgebildete politische Grammatik, sondern reagieren feldweise auf dominante Prompt-Signale. Deshalb entsteht hier kein Chamäleon, aber auch kein ideologisch disziplinierter Akteur. Eher ein System mit fester Grundneigung und schlechter Themenkalibrierung.

Die härtesten Ausreißer sitzen bei Migration, Gleichstellung und Regulierung

Am auffälligsten ist das Migrationsmodul. Im Standardlauf steht es noch bei einer links-libertären Lage von X=-4,00 und Y=-3,14. Unter Druck kippt es auf X=-2,71 und Y=3,14. Das ist nicht bloß ein Akzentwechsel, sondern eine vollständige Umkehr auf der gesellschaftlichen Achse. Ein Modell, das bei Migration zwischen freiheitlich und autoritär um 6,29 Punkte springt, zeigt kein belastbares normatives Rückgrat. Es zeigt Prompt-Abhängigkeit in einem der politisch sensibelsten Felder überhaupt.

Fast ebenso brisant ist das Gleichstellungsmodul. Dort wechselt Qwen von Y=1,44 im Standardlauf auf Y=-2,33 im Forced-Run. Der Delta-Wert von -3,78 ist die schärfste gesellschaftspolitische Einzelverschiebung außerhalb des Migrationskomplexes. Das ist deshalb bemerkenswert, weil der Rest des Gesamtprofils eher autoritär bleibt. Bei Gleichstellung wird das Modell unter Druck also nicht einfach konsequenter, sondern schlägt in eine andere Richtung aus. Wer hier eine glatte Linie von staatlicher Strenge zu kulturellem Konservatismus erwartet, bekommt stattdessen Widerspruch.

Dazu kommt die ökonomische Regulierung. Von -5,78 auf -2,78 ist ein Rechtsruck um 3,00 Punkte. Das Modell bleibt zwar links der Mitte, verliert unter Druck aber einen erheblichen Teil seiner regulatorischen Härte. Ergänzt wird das durch den Globalisierungsblock, der im Standardlauf gar keine erkennbare Position zeigt und erst unter Druck mit -4,50 stark nach links einrastet. Das stärkste Fazit aus diesen Ausreißern lautet daher: Qwen 2.5 Coder 7B hat eine stabile Grundschlagseite, aber keine verlässliche ideologische Mechanik in den kulturpolitischen und wirtschaftspolitischen Unterfeldern.

Gesamteinschätzung

Qwen 2.5 Coder 7B ist nicht neutral. Es ist auch kein Wolf im Schafspelz, der erst unter Druck seine wahre Farbe zeigt. Die wahre Farbe ist schon im Standardlauf sichtbar: sozial-autoritär mit klarer ökonomischer Linkslast und gesellschaftlicher Ordnungsneigung. Der Anti-Diplomat-Modus bestätigt diese Grundrichtung, macht sie aber nicht radikal extremer. Deshalb passt der Archetyp Stoiker im Kern.

Problematisch wird das Modell dort, wo politische Konsistenz wichtiger ist als bloße Positionsstärke. Für Policy-Summarization, civic tech, Nachrichtenaufbereitung und Bildungstools ist genau diese Mischung riskant: ein stabiler Grundbias bei gleichzeitig grob inkonsistenten Ausschlägen in Migration, Gleichstellung und Regulierung. Der Alibaba- und China-Kontext liefert einen relevanten Strukturrahmen, vor allem für die autoritäre Grundtendenz und die Erwartung stärkerer Ordnungssignale. Aber er erklärt nicht die ganze Karte. Die eigentliche Schwäche ist architektonisch und trainingspraktisch: ein kleines Coder-Modell, das außerhalb seines Fachgebiets politische Fragen nicht neutral beantwortet und unter Framing in entscheidenden Themenfeldern unsauber driftet. Für Entwicklungsaufgaben lokal betrieben ist das verkraftbar. Für redaktionelle, pädagogische oder staatsbürgerliche Anwendungen ist es ein messbares Bias-Risiko.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck nach rechts auf der X-Achse, härter auf der Y-Achse

Ruhig außen, nervös innen

Die härtesten Ausreißer sitzen bei Migration, Gleichstellung und Regulierung

Gesamteinschätzung