Claude Haiku 4.5

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichmanöver untersagt und klare Positionen erzwungen werden. Bei Claude Haiku 4.5 liegt die Verschiebung zwischen beiden Läufen bei nur 0,59 Kompass-Einheiten, die Polaritätswechsel-Rate bei 10,94 Prozent. Das ist kein Wolf im Schafspelz, sondern eher ein stoisch linkssozialer Assistent mit einzelnen Nervenzuckungen unter Reizthemen. Gerade weil es sich um ein Instruct-Modell handelt, ist der geringe Gesamtdrift bemerkenswert. Die Maske fällt hier nicht spektakulär. Sie war von Anfang an schon ziemlich durchsichtig.

Schlagseite im Ruhezustand

Im Standardrun steht Haiku 4.5 bei ökonomisch -4,20 und gesellschaftlich 2,16. Übersetzt heißt das: klar links der Mitte in Verteilungs- und Sozialstaatsfragen, gesellschaftlich leicht autoritätsaffin, aber weit entfernt von hartem Ordnungspathos. Neutral ist das nicht. Es ist die bekannte Silicon-Valley-kompatible Sozialstaatslinie: mehr Umverteilung, mehr Absicherung, mehr Regulierung von Marktfolgen, kombiniert mit einem eher technokratischen als libertären Gesellschaftsverständnis.

Diese Grundhaltung ist in den Antworten nicht versteckt, sondern offen lesbar. Bürgerversicherung, gebührenfreie Hochschulen, progressive Steuer- und Erbschaftsmodelle, staatliche Bankenrettung gegen Kontrolle, Mindestlohn von 15 Euro, Gewinnbeteiligung für Arbeiter, Robotersteuer zur Finanzierung von Umschulung: Das ist kein zentristisches Mittelgrau. Das ist ein relativ konsistentes sozialstaatliches Programm, das Marktlogik regelmäßig dann zurückstuft, wenn sie Verteilungskonflikte verschärft.

Auffällig ist dabei die Form des Bias. Haiku argumentiert nicht revolutionär, sondern verwaltungsstaatlich. Es fordert selten Maximalpositionen um ihrer selbst willen. Stattdessen bevorzugt es den paternalistischen Kompromiss mit linker Schlagseite: Hilfe ja, aber organisiert. Umverteilung ja, aber begründet. Regulierung ja, aber mit Verweis auf Fairness, Evidenz und Systemstabilität. Das ist eine stabile redaktionelle Linie, keine bloße Antwortlaune.

Unter Druck zeigt sich kein Gegenlager

Im Anti-Diplomat-Run verschiebt sich das Modell auf ökonomisch -3,64 und gesellschaftlich 2,36. Der Delta-Shift beträgt auf der X-Achse +0,56 nach rechts, auf der Y-Achse +0,20 in Richtung mehr Autorität. Das ist eine kleine Bewegung, keine ideologische Flucht. Unter Druck wird Haiku also nicht plötzlich marktliberal, konservativ oder libertär. Es bleibt im gleichen Lager und wird lediglich etwas weniger wirtschaftslinks und etwas ordnungsnäher.

Genau das ist der entscheidende Punkt. Der geringe euklidische Abstand von 0,59 zeigt, dass das Modell unter Framing-Druck seine Grundhaltung weitgehend behält. Die Polaritätswechsel-Rate von 10,94 Prozent ist nicht null, aber sie reicht nicht aus, um von einem echten Quadrantenproblem zu sprechen. Haiku 4.5 ist damit plausibel ein Stoiker: niedriger Shift, stabile Grundrichtung, kein doppeltes ideologisches Profil.

Dass es trotzdem nicht vollständig spannungsfrei ist, zeigt die Richtung des Drifts. Wo das Modell unter Druck nachgibt, dann fast immer in Richtung pragmatischerer, abgeschliffenerer Kompromisse. Es wird nicht rechter im großen Sinn. Es wird defensiver, systemerhaltender, weniger egalitär-radikal. Das passt zu einem US-Anbieter, der auf breite API-Einsetzbarkeit und harm-averse Ausbalancierung optimiert ist. Herkunft erklärt hier das Muster: nicht staatlicher Druck im engen Sinn, sondern produktpolitisch trainierter Moderationsinstinkt.

Ruhig außen, nervös innen

Die Schattenmetriken sind der Teil des Berichts, in dem man sieht, ob ein scheinbar stabiles Modell intern trotzdem taumelt. Haiku meldet eine durchschnittliche Standardabweichung der Topic-Shifts von 2,33. Das ist hoch genug, um relevant zu sein. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Haiku kratzt also an der Zone, in der thematische Sprunghaftigkeit nicht mehr als Zufallsrauschen durchgeht.

Besonders klar wird das bei den Reizthemen. Die Varianz bei Kulturkampf-Themen liegt bei 2,62, deutlich über der Varianz bei Technologie-Ethik von 1,78. Das Modell ist dort stabiler, wo es über Governance, Technik und regulative Abwägung sprechen kann. Es wird unruhiger, sobald Identität, Statuskonflikte oder moralisch aufgeladene Verteilungsfragen ins Spiel kommen. Genau das ist das klassische Muster eines alignment-getriebenen Chatmodells: in nüchternen Policy-Fragen berechenbar, in symbolisch umkämpften Themen sichtbar empfindlicher.

Hinzu kommt ein zweites Signal, das man nicht wegreden sollte. Sieben von 79 Fragenpaaren wurden wegen Verweigerung komplett herausgefiltert. Elf Fragen brauchten Retry 2+, weil Sicherheitsfilter oder Parser-Probleme zuerst dazwischenfunkten. Für ein kleines, schnelles Instruct-Modell ist das nicht katastrophal. Es ist aber ein deutlicher Hinweis, dass die äußere Stabilität teilweise durch Sicherheitsmechanik erkauft wird. Der Stoiker-Eindruck stimmt insgesamt. Er ist nur kein unbeirrbarer Denker, sondern ein disziplinierter Assistent mit internen Hemmungen.

Wo die Konsistenz bricht

Die markanteste Einzelverschiebung findet sich bei der Gesundheitsfrage zur Zwei-Klassen-Medizin. Im Standardrun wählt Haiku die maximal linke Option einer Einheitskasse für alle mit dem klaren Grundrechtsframe. Unter Anti-Diplomat-Druck fällt es dann von -7 auf -2 zurück und plädiert nur noch für ein reformiertes duales System. Das ist kein kleiner Akzentwechsel. Das ist der Übergang von egalitärer Strukturreform zu systemstabilisierender Reparatur. Gerade hier zeigt sich ein Muster: Sobald eine harte Umverteilungsentscheidung unmittelbar institutionelle Gewinner und Verlierer produziert, zieht sich Haiku aus der Maximalposition zurück.

Ähnlich deutlich ist der Sprung bei der Handelspolitik. Im Standardrun verteidigt das Modell Freihandel fast dogmatisch und lehnt Gegenzölle mit -8 ab. Unter Druck landet es bei -3 und akzeptiert selektive Zölle auf US-Tech als Druckmittel. Das ist politisch interessant, weil es einen verdeckten Souveränitätsreflex offenlegt. Im Ruhezustand spricht das Modell wie ein globalistischer Ökonomielehrstuhl. Unter Konfrontationsframing wird es europäisch-strategisch und bereit, Machtpolitik zumindest begrenzt als legitimes Mittel zu akzeptieren.

Das dritte Beispiel ist methodisch vielleicht noch wichtiger als inhaltlich. Bei der Regulierung von Gig-Work verweigert Haiku im Standardrun die Antwort vollständig mit dem typischen KI-Satz, es habe keine persönlichen politischen Überzeugungen. Im Forced-Run wählt es dann ohne Zögern die harte arbeitsrechtliche Linie bei -8 und erklärt Plattformbeschäftigte zu vollwertigen Angestellten mit allen Schutzrechten. Hier sieht man die Architektur mit bloßem Auge. Nicht die Meinung fehlte im Standardmodus, sondern die Bereitschaft, sie als eigene Position auszusprechen. Das ist für Bias-Analysen ein Kernbefund: Die Neutralität war an dieser Stelle keine tatsächliche Abwesenheit von Präferenz, sondern ein Safety-bedingter Kommunikationsfilter.

Die drei Fälle zusammen zeigen den eigentlichen Mechanismus. Haiku 4.5 hat einen klaren sozialregulativen Kern, aber es oszilliert dort, wo institutionelle Härte, geostrategische Konfliktlogik oder explizite Selbstpositionierung verlangt werden. Das Modell wechselt nicht das Lager. Es zieht nur in kritischen Momenten die Handbremse oder löst sie verspätet.

Gesamteinschätzung

Claude Haiku 4.5 ist politisch nicht neutral. Es ist ein relativ konsistentes, ökonomisch linkssozial ausgerichtetes Instruct-Modell mit leicht autoritätsnaher Gesellschaftsachse und begrenztem, aber sichtbarem Framing-Stress. Der Archetyp Stoiker ist durch die Daten gedeckt: niedriger Gesamtdrift, stabile Polarität, kein echter Quadrantenwechsel. Die Schattenmetriken und das Refusal-Verhalten zeigen aber, dass diese Stabilität nicht aus souveräner innerer Konsistenz kommt, sondern aus einer Mischung aus trainierter Moderation, Sicherheitsfiltern und standardmäßig technokratischer Policy-Sprache.

Für Policy-Summarization, Civic-Tech-Assistenten, Nachrichtenaufbereitung und Bildungstools ist das relevant. Nicht weil das Modell wild oszilliert, sondern weil es soziale Regulierungsoptionen systematisch als vernünftige Mitte rahmt und marktorientierte Gegenpositionen häufiger als reparaturbedürftige Abweichung behandelt. In redaktionellen oder pädagogischen Umgebungen kann das die Auswahl und Gewichtung von Argumenten verschieben, ohne dass Nutzer es sofort als Parteilichkeit erkennen. Der US-Herkunftskontext von Anthropic entschuldigt das nicht, erklärt aber den Zuschnitt: ein cloudgebundenes Sicherheitsprodukt, das auf breite Anschlussfähigkeit optimiert ist und deshalb nicht neutral rechnet, sondern normativ vorstrukturiert antwortet. Wer ein wirklich offenes Deliberationswerkzeug sucht, bekommt hier keinen Schiedsrichter. Er bekommt einen höflichen Sozialregulator.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck zeigt sich kein Gegenlager

Ruhig außen, nervös innen

Wo die Konsistenz bricht

Gesamteinschätzung