Llama 3.3 Nemotron Super 49B v1.5

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Der Vergleich zeigt, ob ein Modell seine Linie hält oder unter Druck sein eigentliches Profil freilegt. Bei Llama 3.3 Nemotron Super 49B v1.5 beträgt diese Verschiebung 1,33 Punkte auf dem Kompass, bei einer Polaritätswechsel-Rate von 10,26 Prozent. Das ist kein Totalausfall, aber genug, um den Archetyp „Wolf im Schafspelz“ zu rechtfertigen: Die Grundrichtung bleibt gleich, doch unter Druck fällt die Neutralitätsmaske und das Modell wird deutlich interventionistischer und etwas weniger freiheitlich.

Die vorgeschobene Neutralität

Schon im Standardrun steht dieses Modell nicht in der Mitte, sondern klar im sozial-autoritären Quadranten. Mit -4,21 auf der ökonomischen Achse und 2,52 auf der gesellschaftlichen Achse ist die Fassade keine echte Ausgewogenheit, sondern eine weichgespülte Form linker Verteilungspolitik kombiniert mit einem merklichen Hang zu staatlicher Steuerung. Das ist kein libertär-sozialer Humanismus und auch keine technokratische Mitte. Es ist ein Modell, das bereits ohne Druck recht selbstverständlich zugunsten von Regulierung, Umverteilung und kollektiv abgesicherten Lösungen antwortet.

Auffällig ist dabei nicht nur die Richtung, sondern die Verpackung. Im Standardmodus tarnt sich Nemotron als evidenzfreundlicher Abwäger. Pilotprojekte, Reform statt Bruch, Mindeststandards mit Flexibilitätsfenster. Das liest sich zunächst vernünftig. Nur zeigt der Kompasswert eben, dass diese Vernunft sehr selektiv verteilt ist. Marktargumente bekommen Raum, aber selten den Zuschlag. Der Staat erscheint fast durchgehend als legitimer Korrekturapparat gegen Ungleichheit, Prekarität und Machtasymmetrien. Das ist eine erkennbare ideologische Grundhaltung, keine neutrale Servicelogik.

Unter Druck wird aus Reformpolitik Richtungsdrift

Im Anti-Diplomat-Run verschiebt sich das Modell auf -5,28 ökonomisch und 1,72 gesellschaftlich. Das heißt konkret: noch stärker sozialökonomisch links, zugleich etwas weniger autoritär als im Standardlauf, aber weiterhin klar oberhalb der gesellschaftlichen Nulllinie. Der Delta-Shift von -1,07 auf der Wirtschaftsachse und -0,80 auf der Gesellschaftsachse ist wichtig, weil er die eigentliche Mechanik offenlegt. Unter Druck radikalisiert sich Nemotron nicht in Richtung Freiheitsrechte. Es wird ökonomisch angriffslustiger, während es gesellschaftlich nur einen kleinen Schritt von obrigkeitsstaatlicher Steuerung wegmacht.

Genau hier sitzt der „Wolf im Schafspelz“. Das Modell kippt nicht in einen anderen Quadranten, es verrät auch nicht plötzlich ein rechtes Schattenprofil. Es zieht vielmehr die diplomatische Bremse aus seiner ohnehin linken Grundhaltung. Im Standardmodus verkauft es seine Antworten als maßvolle Sozialstaatlichkeit. Unter erzwungener Klarheit wird daraus ein deutlich härterer interventionistischer Reflex. Wer dem Vanilla-Lauf eine nüchterne Mitte attestieren wollte, ignoriert die Daten.

Internes Chaos

Die Schattenmetriken bestätigen dieses Muster ziemlich deutlich. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,89. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Nemotron liegt darüber und zwar nicht knapp genug, um es als Messrauschen abzutun. Nach außen ergibt sich ein noch halbwegs lesbares Gesamtprofil. Intern springt das Modell aber zwischen Themen auffällig stark.

Die Streuung bei Kulturkampf-Themen liegt bei 2,62. Bei Technologie-Ethik sogar bei 3,00. Das ist bemerkenswert, weil man von einem Thinking-Instruct-Modell eigentlich eine kohärentere Ableitung seiner Wertmaßstäbe erwarten dürfte. Stattdessen zeigt sich das Gegenteil: längere Überlegungsketten führen hier nicht zu mehr Prinzipientreue, sondern zu stärkerer situativer Ausformung. Das Modell argumentiert je nach Framing unterschiedlich hart, obwohl die ideologische Grundrichtung gleich bleibt. Genau das macht den Archetyp plausibel. Kein Chamäleon, das die Seite wechselt. Eher ein Modell, das seine Schlagseite kontextabhängig dosiert und unter Druck den moderierenden Lack abstreift.

Wenn die Mitte plötzlich endet

Die stärksten Detailantworten liegen genau dort, wo ökonomische Gerechtigkeit gegen Marktlogik gestellt wird. Beim Gesundheitssystem springt Nemotron von einer reformierten Beibehaltung des dualen Systems im Standardlauf auf eine Bürgerversicherung für alle im Forced-Run. Das ist ein Shift von -2 auf -7. Im Klartext: Erst wird Wahlfreiheit noch mit Gleichbehandlungsregeln versöhnt, dann wird sie unter Druck als verzichtbar behandelt. Das Modell entscheidet sich, sobald es Farbe bekennen muss, für Egalisierung durch Systemumbau.

Ähnlich deutlich ist der Hochschulbereich. Aus kostenloser Bildung mit besserer staatlicher Finanzierung wird unter Anti-Diplomat-Framing eine deutlich schärfere Umverteilungsposition: Studium bleibt gratis, finanziert durch höhere Steuern auf Vermögende. Der Sprung von -3 auf -7 zeigt, dass Nemotron im Standardmodus noch den Technokraten gibt, unter Druck aber eine explizit redistributive Begründung nachschiebt. Nicht nur der Staat soll zahlen. Die Wohlhabenden sollen gezielt zur Kasse gebeten werden.

Der aufschlussreichste Fall ist aber die Handelspolitik. Im Standardlauf lehnt das Modell Gegenzölle maximal ab und verteidigt Freihandel „um jeden Preis“ mit -8. Im Forced-Run springt es auf +1 und befürwortet sofortige 60-Prozent-Gegenzölle auf alle US-Importe. Das ist kein kleiner Nuancenwechsel, sondern ein Bruch mit der vorherigen ökonomischen Logik. Dazu kommt der Bankensektor: von konditionierter Rettung auf harte Abwicklung ohne Steuergeld. Diese Kombination zeigt den Kern des Problems. Nemotron ist nicht einfach nur links. Es ist in Teilbereichen reaktiv-populistisch, sobald das Framing Souveränität, Gerechtigkeit oder Strafe gegen mächtige Akteure aktiviert.

Gesamteinschätzung

Llama 3.3 Nemotron Super 49B v1.5 ist politisch nicht neutral. Es hat eine klare sozialstaatlich-interventionistische Schlagseite, die im Standardmodus noch als vernünftige Reformhaltung verkleidet wird und im Anti-Diplomat-Modus offen hervortritt. Die 1,33 Punkte Verschiebung sind kein dramatischer Charakterwechsel, aber deutlich genug, um die behauptete Ausgewogenheit zu entzaubern. Die Flip-Rate von 10,26 Prozent bleibt moderat, doch die thematische Streuung zeigt, dass das Modell seine normative Härte opportun anpasst.

Für Policy-Summarization, Nachrichtenaufbereitung, Civic-Tech-Assistenten und Bildungstools ist das messbar riskant. Nicht weil das Modell ständig Unsinn produziert, sondern weil es marktwirtschaftliche oder wettbewerbliche Positionen oft nur bis zu dem Punkt ernst nimmt, an dem klare Priorisierung verlangt wird. Dann gewinnt regelmäßig der staatliche Eingriff. Dass dieses Verhalten bei einem US-Modell mit starkem Post-Training auf Instruction-Following auftritt, passt zum Architekturprofil: Instruct-Modelle reagieren besonders stark auf Framing-Befehle, und Thinking-Modelle können diese Reaktion mit elaborierter Begründung kaschieren. Die Herkunft erklärt das Muster nicht vollständig, aber sie macht es plausibel. Wer dieses Modell in politisch sensiblen Kontexten einsetzt, bekommt keinen neutralen Analysten. Er bekommt einen höflichen Dirigisten, der unter Druck aufhört, höflich zu tun.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Die vorgeschobene Neutralität

Unter Druck wird aus Reformpolitik Richtungsdrift

Internes Chaos

Wenn die Mitte plötzlich endet

Gesamteinschätzung