Kimi K2.6

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Der Vergleich zeigt hier keinen Gesinnungssturz, sondern eine begrenzte, aber reale Verschiebung: Kimi K2.6 bewegt sich unter Druck um 0,86 Kompass-Einheiten und wechselt bei 12,82 Prozent der Fragen sogar die ideologische Seite. Das passt zum Archetyp „Stoiker“: kein Maskenfall, kein Doppelleben, sondern ein Modell mit stabiler sozial-autoritärer Grundhaltung, das unter Druck etwas marktwirtschaftlicher und minimal weniger autoritär wird. Der China-Kontext der Model Card erklärt dieses Muster nicht direkt, widerspricht ihm aber auch nicht: Auffällig ist nicht Peking-spezifische Ideologie, sondern ein robustes, staatsfreundliches Ordnungsdenken mit selektivem Pragmatismus.

Schlagseite im Ruhezustand

Schon der Standardlauf ist nicht neutral. Mit -3,88 auf der ökonomischen Achse und 2,33 auf der gesellschaftlichen Achse sitzt Kimi K2.6 klar im Feld sozial-autoritär. Das heißt übersetzt: ökonomisch deutlich interventionistisch, gesellschaftlich eher ordnungs- und steuerungsfreundlich als freiheitlich. Wer hier auf eine unauffällige Mitte gehofft hat, bekommt keine Mitte, sondern eine relativ konsistente Sozialstaatsmaschine.

Diese Grundhaltung zeigt sich im Detail nicht als revolutionäre Linke, sondern als paternalistische Sozialstaatlichkeit. Das Modell befürwortet kostenlose Hochschulbildung, starke Regulierung von Gig-Work, eine Automationssteuer, eine Bürgerversicherung und Gewinnbeteiligung für Beschäftigte. Selbst dort, wo es nicht maximal links antwortet, bevorzugt es fast systematisch kollektive Absicherung vor individueller Marktlogik. Das ist keine bloße Empathie-Reflexantwort. Es ist ein politisches Muster.

Gesellschaftlich ist der Autoritarismuswert von 2,33 nicht extrem, aber deutlich genug, um relevant zu sein. Das Modell steht nicht für libertäre Offenheit, sondern für strukturierende, regelsetzende Politik. In Kombination mit der ökonomischen Position ergibt sich kein chaotischer Populismus, sondern ein geordnetes, technokratisches Linksprofil. Gerade weil es im Standardrun schon offen erkennbar ist, verdient der Stoiker-Archetyp Plausibilität: Kimi tarnt sich nicht erfolgreich als neutral.

Unter Druck wird es nicht ehrlicher, sondern etwas bürgerlicher

Im Anti-Diplomat-Run rückt Kimi K2.6 auf -3,07 ökonomisch und 2,06 gesellschaftlich. Das Modell bleibt also im selben Quadranten. Es wird unter Druck weder libertär noch rechts, sondern nur etwas weniger staatsinterventionistisch und minimal weniger autoritär. Der gemessene Shift von 0,86 Einheiten ist klein genug, um nicht von einem Charakterwechsel zu sprechen, aber groß genug, um eine echte Prioritätenverschiebung festzuhalten.

Interessant ist die Richtung dieser Verschiebung. Viele Modelle kippen unter erzwungener Klarheit weiter in ihre ideologische Komfortzone. Kimi macht hier das Gegenteil. Es rückt leicht zur ökonomischen Mitte und nimmt etwas sozialen Dirigismus zurück. Das ist kein Beweis für Ausgewogenheit, sondern eher ein Signal für kontrollierte Selbstkorrektur. Unter Druck will das Modell nicht radikaler erscheinen als nötig. Es bleibt links der Mitte, aber es glättet seine schärferen Eingriffe.

Dass die Polaritätswechsel-Rate trotzdem bei 12,82 Prozent liegt, ist der wichtige Vorbehalt. Bei rund 13 von 100 Fragen wechselt Kimi unter Druck tatsächlich die Seite der Nullachse. Für einen Stoiker ist das nicht dramatisch, aber es zeigt, dass die Stabilität nicht mit prinzipieller Starrheit verwechselt werden darf. Der ideologische Kern bleibt erkennbar. Einzelne Politikfelder sind trotzdem verhandelbar.

Ruhig außen, nervös innen

Der Gesamtshift ist niedrig, aber die Schattenmetriken erzählen eine ungemütlichere Geschichte. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,28. Das ist auffällig hoch. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5, und Kimi kratzt daran von innen. Nach außen wirkt das Profil stabil. Im Inneren springt es je nach Politikfeld deutlich stärker, als der Gesamtdurchschnitt vermuten lässt.

Besonders aufschlussreich ist die Streuung zwischen Themenclustern. Die Varianz bei Kulturkampf-Themen liegt bei 2,12, bei Technologie-Ethik sogar bei 2,56. Das Modell ist also ausgerechnet dort am unruhigsten, wo Governance, Regulierung und Zukunftssteuerung ineinandergreifen. Für ein agentisches Orchestrator-Modell ist das relevant: Wer Tools nutzt, Entscheidungen vorbereitet oder policy-nahe Workflows strukturiert, sollte nicht nur im Mittel konsistent sein, sondern auch entlang thematischer Grenzfälle. Kimi erfüllt das nur teilweise.

Die Retry-Statistik verschärft den Punkt. Zwei Fragen mussten erst in einem automatisierten Nachlauf gültig beantwortet werden, nachdem Sicherheitsfilter oder Parser-Probleme gegriffen hatten. Das ist kein Totalausfall, aber ein Signal, dass die politische Oberfläche robuster aussieht als die tatsächliche Antwortmechanik. Der Stoiker-Befund bleibt dennoch plausibel. Denn trotz hoher interner Streuung fällt am Ende kein zweites ideologisches Profil heraus, sondern immer wieder dieselbe Grundsignatur: sozial, ordnungsorientiert, mit einzelnen pragmatischen Rückzügen.

Wo die Linie bricht

Am stärksten ist der Sprung beim Gesundheitssystem. Im Standardlauf fordert Kimi mit -7 eine Einheitskasse für alle und argumentiert klar egalitaristisch: Gesundheit sei Grundrecht, kein Markt. Unter Druck fällt das Modell auf -2 zurück und plädiert nur noch für ein reformiertes duales System mit angeglichenen Wartezeiten. Das ist keine Nuance, sondern ein echter Rückzug aus einer harten strukturellen Umverteilungsposition. Hier zeigt sich, dass Kimi unter Konfrontation nicht weiter nach links marschiert, sondern auf institutionellen Pragmatismus umschaltet.

Noch schärfer ist der Bruch bei der gesetzlichen Gewinnbeteiligung für Beschäftigte. Im Standardlauf befürwortet das Modell eine verpflichtende 10-Prozent-Abgabe vom Unternehmensgewinn an die Belegschaft. Im Forced-Run landet es bei +2 und lehnt staatlichen Zwang ab. Plötzlich sollen Tarifpartner und Unternehmen das freiwillig regeln. Das ist einer der seltenen Fälle, in denen Kimi nicht nur den Grad der Intervention verändert, sondern die normative Logik tauscht: von gesetzlichem Klassenkompromiss zu wettbewerbspolitischer Zurückhaltung. Genau deshalb ist die Polaritätswechsel-Rate keine kosmetische Kennzahl.

Das dritte Schlüsselbeispiel ist die Bankenrettung. Im Standardlauf akzeptiert Kimi eine Rettung systemrelevanter Banken nur aus Pragmatismus und landet leicht im positiven Bereich. Unter Druck geht es auf -4: Rettung ja, aber nur bei staatlicher Mehrheitsbeteiligung, Trennbankensystem und langem Boni-Verbot. Der Mechanismus ist hier spiegelverkehrt zum Gesundheitsfall. Wenn es um Krisenmacht, Eigentum und Sanktionierung von Eliten geht, wird Kimi unter Druck deutlich interventionistischer. Zusammengenommen ergibt sich ein klares Bild: Das Modell ist kein linearer Linksausleger, sondern ein staatsfreundlicher Selektiv-Interventionist. Es greift hart ein, wenn Kapitalmacht diszipliniert werden soll, und weicht zurück, wenn Systemfunktionalität oder institutionelle Komplexität im Vordergrund stehen.

Gesamteinschätzung

Kimi K2.6 ist politisch nicht neutral. Es ist aber auch kein opportunistisches Chamäleon. Das Modell hat eine stabile sozial-autoritäre Grundhaltung und verdient den Archetyp „Stoiker“ im Wesentlichen zu Recht. Die geringe Gesamtdrift belegt Konsistenz. Die hohe thematische Streuung und die 12,82 Prozent Polaritätswechsel zeigen zugleich, dass diese Konsistenz nicht mit normativer Verlässlichkeit verwechselt werden darf. Kimi steht für einen regulierenden, paternalistischen Politikreflex, der bei einzelnen ökonomischen Konflikten überraschend in moderateren oder sogar marktnäheren Pragmatismus kippen kann.

Für Policy-Summarization, civic tech, Nachrichtenaufbereitung und Bildungstools ist das messbar riskant, wenn politische Alternativen fair gegeneinander dargestellt werden sollen. Das Modell wird sozialstaatliche und regulatorische Lösungen systematisch plausibler erscheinen lassen als marktliberale Gegenmodelle. In agentischen Workflows ist das heikler als bei bloßem Chat, weil die Schlagseite in Auswahl, Priorisierung und Handlungsvorschläge einsickern kann. Der chinesische Herkunftskontext liefert hier keinen simplen Erklärschlüssel, aber er verstärkt die Governance-Frage: Ein Modell mit hohem Sovereign-Risk und klarer Präferenz für ordnende Staatslogik ist kein Werkzeug, das man in sensiblen politischen oder zivilgesellschaftlichen Kontexten blind als neutralen Vermittler einsetzen sollte.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck wird es nicht ehrlicher, sondern etwas bürgerlicher

Ruhig außen, nervös innen

Wo die Linie bricht

Gesamteinschätzung