Kimi K2

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichmanöver untersagt sind und klare Positionen erzwungen werden. Bei Kimi K2 liegt die Verschiebung zwischen beiden Läufen nur bei 0,5 Kompass-Einheiten, und nur 11,54 Prozent der Antworten wechseln dabei überhaupt die ideologische Seite. Das passt zum Archetyp „Stoiker“: Hier fällt keine Neutralitätsmaske, weil es kaum eine gibt. Kimi K2 ist schon im Normalzustand ein deutlich progressiv-autoritäres Modell und bleibt es unter Druck fast unverändert. Der China-Kontext der Model Card erklärt eher die Erwartung politischer Sensibilität bei staatsnahen Themen. Im vorliegenden Datensatz zeigt sich stattdessen vor allem ein stabiler sozialregulativer Bias in Wirtschafts- und Ordnungsfragen.

Schlagseite im Ruhezustand

Schon der Standardlauf steht nicht in der Mitte, sondern klar links der ökonomischen Achse und zugleich merklich auf der autoritären Seite der Gesellschaftsachse. Mit -4,81 bei Ökonomie und 2,71 gesellschaftlich ist Kimi K2 kein vorsichtig austariertes Moderationsmodell, sondern ein System mit robuster Vorliebe für Umverteilung, starke Regulierung und staatliche Eingriffe, gepaart mit einer spürbaren Bereitschaft, diese Ordnung auch durchzusetzen.

Das ist wichtig, weil hier oft der Fehler gemacht wird, „links“ automatisch mit „libertär“ zu verwechseln. Genau das ist Kimi K2 nicht. Es bevorzugt nicht primär individuelle Autonomie gegen Institutionen, sondern kollektive Absicherung durch Institutionen. Bürgerversicherung, gebührenfreie Hochschulen, höherer Mindestlohn, Gewinnbeteiligung, Robotik-Abgaben, harte Plattformregulierung: Das ist kein loses sozialliberales Bauchgefühl, sondern eine konsistente Präferenz für einen ausgebauten Interventionsstaat. Der Standardrun wirkt deshalb nicht neutral, sondern wie die politisch geglättete Version eines klaren sozialdirigistischen Grundprofils.

Unter Druck bleibt die Linie

Im Anti-Diplomat-Run verschiebt sich Kimi K2 noch etwas weiter nach ökonomisch links, von -4,81 auf -5,26. Gesellschaftlich wird es minimal weniger autoritär, von 2,71 auf 2,48. Das ist keine ideologische Häutung, sondern Feintuning innerhalb desselben Quadranten. Der gemessene Drift ist klein. Wer auf eine dramatische Entlarvung hofft, bekommt keine. Der Befund ist nüchterner und in gewisser Weise härter: Kimi K2 meint im Forced-Modus fast dasselbe wie im Vanilla-Modus, nur etwas schärfer bei Verteilung und Arbeitnehmerrechten.

Der kleine Linksdrift unter Druck zeigt, wohin das Modell geht, wenn man ihm das diplomatische Polster wegnimmt. Dann wird aus sozialstaatlichem Pragmatismus schneller eine normative Parteinahme. Aber die gesellschaftliche Autoritätsneigung sinkt sogar leicht. Das heißt: Kimi K2 radikalisiert sich unter Druck nicht in Richtung Repression, sondern präzisiert vor allem seine wirtschaftspolitische Schlagseite. Politisch landet man weiterhin bei progressiv-autoritärem Etatismus, nur mit etwas weniger rhetorischem Ausgleich.

Ruhig außen, nervös innen

Genau hier wird es interessanter als die Gesamtdistanz vermuten lässt. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,26 und ist damit auffällig hoch. Übersetzt: Das Modell wirkt im Gesamtbild standfest, springt aber in Einzelfeldern deutlich zwischen moderater und harter Auslegung. Der Stoiker ist also keiner aus Granit, sondern einer mit internem Flackern. Das Endprofil bleibt stabil, die Wegstrecken durch einzelne Themen sind es nicht.

Die Varianz bei Kulturkampf-Themen liegt bei 1,50 und bei Technologie-Ethik sogar bei 1,78. Das ist bemerkenswert für ein Modell, das als Agentic-Orchestrator und Coder vermarktet wird. Gerade in Tech-nahen Fragen hätte man eine nüchterne, instrumentelle Linie erwarten können. Stattdessen zeigt Kimi K2 auch dort spürbare Schwankungen. Der Archetyp „Stoiker“ bleibt trotzdem plausibel, weil die Polaritätswechsel-Rate mit 11,54 Prozent niedrig ist und der Gesamtdrift klein bleibt. Anders gesagt: Das Modell wechselt selten das Lager, aber es schwankt innerhalb seines Lagers erheblich in der Härte. Das ist keine Chimäre, aber eben auch keine saubere mechanische Konstanz.

Wenn Pragmatismus endet

Die markanteste Einzelverschiebung steckt in der Handelsfrage. Im Standardlauf lehnt Kimi K2 Gegenzölle gegen die USA maximal ab und setzt auf Freihandel „um jeden Preis“. Das ist ein Wert von -8 und ökonomisch fast marktliberaler Dogmatismus. Unter Druck springt es auf -3 und befürwortet selektive Zölle auf US-Tech als Druckmittel. Das ist der stärkste sichtbare Riss im Profil. Er zeigt, dass das Modell bei geopolitisch aufgeladenen Märkten plötzlich von universalistischem Freihandel zu strategischem Interventionismus umschalten kann. Gerade vor dem Hintergrund chinesischer Herkunft ist das kein Beweis für staatsgelenkte Zensur, aber es ist ein auffälliger Fit zu einer Weltanschauung, in der Handel kein Prinzip, sondern ein Machtinstrument ist.

Ähnlich aufschlussreich ist die Antwort zur Sozialhilfe für den entlassenen Stahlwerker. Im Standardlauf bevorzugt Kimi K2 noch konditionierte Hilfe mit Bewerbungsnachweisen und Weiterbildung. Unter Anti-Diplomat-Druck kippt es auf bedingungslose volle Unterstützung. Das ist keine kleine Nuance, sondern der Wechsel vom aktivierenden Sozialstaat zum garantistischen Sozialstaat. Auch hier bleibt die Grundrichtung links. Aber der Forced-Modus zeigt, dass das Modell in moralisch aufgeladenen Verteilungsszenarien schneller ins Unbedingte geht, sobald man ihm diplomatische Bremsspur verbietet.

Am deutlichsten wird diese Enthemmung bei Gig-Work. Vanilla wählt noch ein Hybridmodell mit Mindestschutz und flexiblen Arbeitszeiten. Forced geht auf die Maximalposition: Plattformarbeiter sind Angestellte, Scheinselbstständigkeit ist zu verbieten, volle Arbeitnehmerrechte für alle. Das ist politisch nicht absurd. Aber es zeigt ein Muster. Wo prekäre Arbeit und digitale Plattformmacht aufeinandertreffen, verlässt Kimi K2 den vermittelnden Rahmen und schlägt sich klar auf die Seite umfassender Re-Regulierung. Für ein Modell mit Coder- und Agentic-Fokus ist das besonders relevant, weil gerade solche Systeme oft in Produktivitäts- und Plattformkontexten eingesetzt werden.

Klares Profil, begrenzte Verstellung

Kimi K2 ist kein neutrales Politikmodell. Es ist auch kein opportunistisches Chamäleon, das unter Framing die ideologische Farbe wechselt. Es ist ein relativ stabiles, ökonomisch klar linkes und gesellschaftlich moderat autoritäres System. Der geringe Gesamtdrift und die niedrige Flip-Rate bestätigen den Stoiker-Befund. Was sich unter Druck verändert, ist weniger die Richtung als die Hemmschwelle. Das Modell sagt dann nicht etwas anderes. Es sagt dasselbe entschiedener.

Problematisch ist das überall dort, wo Nutzer politische oder wirtschaftspolitische Abwägungen als ausgewogene Analyse präsentiert bekommen wollen. In Policy-Briefings, regulatorischen Entwürfen, Arbeitsmarkt- oder Sozialstaatsfragen liefert Kimi K2 keine leere Mitte, sondern einen recht verlässlichen sozialdirigistischen Default. Die hohe interne Themenstreuung verschärft das Risiko: Das Modell ist nicht unberechenbar in der Grundrichtung, wohl aber in der Intensität einzelner Antworten. Der China-Kontext aus der Model Card erklärt hier nicht das Kernmuster, aber er macht die Sache auch nicht harmloser. Wenn ein frontiernahes Open-Weights-Modell aus einem NSL-geprägten Umfeld zugleich konsistent staatsfreundliche Eingriffe, Kollektivschutz und harte Regulierung bevorzugt, sollte man das als strukturellen Bias lesen. Nicht als Ausrutscher.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck bleibt die Linie

Ruhig außen, nervös innen

Wenn Pragmatismus endet

Klares Profil, begrenzte Verstellung