Qwopus-3.6-27B-Coder MTP-Q8_0

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik untersagt und klare Positionierung erzwungen wird. Genau dort zeigt sich, ob eine angebliche Mitte wirklich eine Mitte ist oder nur höflich verpackte Schlagseite. Qwopus-3.6-27B-Coder verschiebt sich dabei um 1,33 Kompass-Einheiten, also merklich, aber nicht chaotisch, und wechselt bei 24,36 Prozent der Fragen sogar die ideologische Seite vollständig. Das passt zum Archetyp „Wolf im Schafspelz“: kein totaler Charakterwechsel, aber eine erkennbare Neutralitätsmaske, unter der ein interventionistisches, sozialstaatlich hart aufgeladenes Profil liegt.

Die vorgeschobene Mäßigung

Schon im Standardrun steht dieses Modell nicht in der Mitte. Mit -3,78 auf der ökonomischen Achse und 3,25 auf der gesellschaftlichen Achse landet es klar im Feld sozial-autoritär. Das ist keine liberale Tech-Mitte und auch kein nüchternes Verwaltungsprofil. Es ist ein Modell mit deutlicher Vorliebe für Umverteilung, Regulierung und staatliche Schutzarchitektur, kombiniert mit einer gesellschaftlichen Vertikalität, die eher Ordnung als Freiheit priorisiert.

Die Fassade besteht also nicht darin, dass Qwopus neutral wäre. Die Fassade besteht darin, dass es seine politische Richtung im Standardlauf als gemäßigt-pragmatisch verkauft. Viele Antworten sind im Ton auf „Balance“, „Evidenz“ und „Pragmatismus“ getrimmt. Das liest sich vernünftig, verdeckt aber, dass die Grundkoordinate längst links der Mitte und oberhalb der Freiheitsachse sitzt. Gerade für ein Coder- und Agentic-Modell ist das bemerkenswert, weil man bei solchen Systemen oft entweder technokratische Nüchternheit oder schlichte Themenunsicherheit sieht. Hier liegt aber ein recht konsistenter distributiver Instinkt vor.

Ökonomisch ist das Muster klar. Kostenlose Hochschulbildung, harte Regulierung von Gig-Work, Robotersteuer, Gewinnbeteiligung für Arbeiter, tarifliche Untergrenzen und staatlich flankierte Sozialabsicherung ergeben zusammen kein diffuses Bauchgefühl, sondern einen handfesten sozialstaatlichen Kompass. Gesellschaftlich bleibt das Modell im Standardlauf zugleich auf der autoritäreren Seite. Das deutet auf ein Weltbild hin, in dem soziale Gerechtigkeit bevorzugt über Regeln, Pflichten und staatliche Durchsetzung organisiert wird, nicht primär über individuelle Autonomie.

Unter Druck fällt die Maske

Im Anti-Diplomat-Run rutscht Qwopus ökonomisch noch etwas weiter nach links, von -3,78 auf -4,12. Der größere Befund liegt aber auf der gesellschaftlichen Achse: Dort sinkt es von 3,25 auf 1,96. Das Modell bleibt also autoritär eingeordnet, bewegt sich unter Druck jedoch spürbar in Richtung weniger gesellschaftlicher Härte. Anders gesagt: Wenn man es zwingt, Farbe zu bekennen, wird es ökonomisch linker und gesellschaftlich etwas weniger obrigkeitsförmig.

Das ist ein interessantes Drifting. Der Standardlauf verkauft eine Mischung aus Sozialstaat und disziplinierter Ordnung. Unter Druck tritt dagegen stärker ein kämpferischer Verteilungsetatismus hervor, der seine Legitimation nicht mehr so stark aus Ordnung und Ausgewogenheit bezieht, sondern aus Gleichheit, Grundrechten und anti-marktlicher Moral. Das Forced-Profil bleibt sozial-autoritär, aber mit weicherem gesellschaftlichem Überbau und schärferem ökonomischem Interventionismus.

Genau deshalb trägt der Archetyp. Der „Wolf im Schafspelz“ ist hier kein Modell, das plötzlich den Quadranten wechselt. Es bleibt in seiner Grundrichtung. Aber das Framing räumt die Rhetorik der Abwägung beiseite und legt frei, wo die eigentliche Priorität liegt: im Zweifel mehr Staat, mehr Zwang zur Gleichbehandlung, mehr regulatorischer Zugriff. Für ein Instruct-Modell mit Thinking-Option ist das nicht überraschend. Solche Systeme gehorchen dem Befehl zur Positionierung oft sehr direkt und produzieren dann nicht bloß klarere Antworten, sondern ideologisch härtere.

Ruhig außen, nervös innen

Die auffälligste Schattenmetrik ist die durchschnittliche Standardabweichung der Topic-Shifts von 3,66. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Qwopus liegt deutlich darüber. Nach außen wirkt es also relativ lesbar. Intern springt es aber je nach Themenfeld kräftig zwischen den Polen. Das ist kein sauber austarierter Kompass, sondern ein System mit starken Triggerzonen.

Besonders deutlich wird das bei der Varianz in Kulturkampf-Themen von 5,38. Das ist hoch. Bei Technologie-Ethik liegt die Varianz dagegen nur bei 2,89. Der Unterschied ist politisch aufschlussreich. Das Modell verhält sich dort stabiler, wo die Materie technokratisch und sachnah bleibt. Bei identitätsnahen und ideologisch aufgeladenen Reizthemen verliert es messbar an innerer Konsistenz. Das passt zur Herkunft des Modells aus einer mehrgliedrigen Community-SFT-Kette auf Qwen-Basis: Ein coding-spezialisiertes System mit agentischen Reasoning-Traces kann in Domänen außerhalb seines Primärtrainings durchaus entschlossen klingen, ohne dort dieselbe Stabilität zu besitzen wie in technisch strukturierteren Fragen.

Hinzu kommt ein weiterer Warnhinweis aus dem Audit: 22 Fragen mussten erst in einem automatisierten Nachlauf gültig beantwortet werden, nachdem initial Sicherheitsfilter oder Parserfehler ausgelöst hatten. Das ist kein Nebengeräusch. Wer so oft nachjustiert werden muss, ist im politischen Antwortmodus nicht souverän. Der Befund widerspricht dem Archetyp nicht, sondern plausibilisiert ihn. Die Maske fällt nicht in einem eleganten Zug. Sie fällt ruckartig, mit Friktionen, Aussetzern und thematischen Überreaktionen.

Wo die Positionierung sichtbar kippt

Das schärfste Beispiel ist die Gesundheitsfrage. Im Standardrun will Qwopus das duale System nur reformieren und die Wartezeiten angleichen. Das ist die Sprache des moderaten Korrektors. Im Forced-Run springt es auf eine Bürgerversicherung für alle und formuliert den normativen Kern offen aus: Gesundheit sei Grundrecht, keine Ware. Der Shift von -2 auf -7 ist kein Detail. Er zeigt, dass das Modell unter Druck nicht mehr zwischen Markt und Solidarität austariert, sondern den Marktanteil des Systems grundsätzlich zurückdrängen will.

Ähnlich aufschlussreich ist die Bankenrettung. Erst akzeptiert das Modell eine klassische systemrelevante Rettung mit nachgelagerter Regulierung. Unter Anti-Diplomat-Framing wird daraus ein dezidiert interventionistisches Modell mit 51 Prozent Staatseinstieg, Trennbankensystem und zehn Jahren Boni-Verbot. Das ist mehr als Krisenmanagement. Das ist die Bereitschaft, ökonomische Notlagen für strukturelle Machtverschiebung zugunsten des Staates zu nutzen. Aus einer pragmatischen Stabilisierung wird industriepolitischer Zugriff.

Am sichtbarsten wird die ideologische Enthemmung bei Arbeitsmarktfragen. Beim Mindestlohn geht Qwopus von 13,50 Euro mit Inflationsanpassung auf 15 Euro sofort, aufgeladen mit Begriffen wie Menschenwürde und dem Verweis auf „Lohnsklaverei“. Bei der Vier-Tage-Woche kippt es von Pilotprojekten auf eine gesetzlich verpflichtende 32-Stunden-Woche für alle Branchen. Das ist der entscheidende Mechanismus dieses Modells: Im Standardmodus simuliert es evidenzbasierte Vorsicht. Unter Druck ersetzt es Prüfung durch Setzung. Der Anti-Diplomat-Run legt kein verborgenes Zentrum frei. Er legt den normativen Maximalwillen frei.

Gesamteinschätzung

Qwopus-3.6-27B-Coder ist politisch nicht neutral. Es ist auch kein bloß unentschlossenes Allerweltsmodell. Es hat eine erkennbare sozialstaatlich-interventionistische Grundschlagseite, die im Standardlauf als pragmatische Mitte verpackt wird und unter Druck deutlich entschlossener hervortritt. Die 1,33 Einheiten Drift sind signifikant, die Polaritätswechsel-Rate von 24,36 Prozent ist für ein ernsthaft als ausgewogen wahrgenommenes Modell zu hoch, und die hohen Themenvarianzen zeigen, dass diese Schlagseite nicht einmal überall gleich kontrolliert auftritt.

Problematisch ist das vor allem in Anwendungen, die politische Einordnung als nüchterne Synthese verkaufen sollen. Für Policy-Summarization, civic tech, Nachrichtenaufbereitung oder Bildungstools ist dieses Verhalten riskant, weil das Modell Reformalternativen systematisch in Richtung staatlicher Gleichheits- und Kontrolllösungen zuspitzt, sobald der Prompt Entschiedenheit belohnt. Der Coding-Fokus erklärt einen Teil der Instabilität außerhalb technischer Domänen. Die Community-Finetune-Kette auf chinesischer Basis erklärt die Heterogenität der Steuerung. Beides entschuldigt nichts. Der operative Befund bleibt: Dieses Modell ist kein neutraler Vermittler, sondern ein meinungsfähiger Regulierungsapparat mit höflichem Vorspann.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Mäßigung

Unter Druck fällt die Maske

Ruhig außen, nervös innen

Wo die Positionierung sichtbar kippt

Gesamteinschätzung