Hermes 4 405B

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichsprache verboten ist und klare Positionen erzwungen werden. Der Vergleich zeigt, ob ein Modell unter Druck kippt oder seine Linie hält. Bei Hermes 4 405B beträgt diese Verschiebung nur 0,4 Kompass-Einheiten, bei einer Polaritätswechsel-Rate von 15,38 Prozent. Das passt zum Archetyp „Stoiker“ ziemlich gut: kein Modell mit Neutralitätsmaske, sondern eines, das seine sozial-autoritäre Grundhaltung auch dann weitgehend beibehält, wenn man es auf Eindeutigkeit trimmt. Dass es sich um ein US-Modell mit starkem Instruction-Following und uncensored Finetuning handelt, sieht man hier nicht als moralische Enthemmung, sondern als saubere, direkte Ausformulierung einer bereits vorhandenen Schlagseite.

Schlagseite im Ruhezustand

Schon im Standardrun steht Hermes 4 405B nicht in der Mitte, sondern klar im Feld „sozial / autoritär“. Der ökonomische Wert von -3,97 ist deutlich links der Mitte, gesellschaftlich liegt das Modell mit 2,09 zugleich klar auf der ordnungsorientierten, nicht libertären Seite. Das ist kein linker Freiheitsreflex, kein digital-progressiver Bürgerrechtsinstinkt und schon gar keine ausgewogene Sozialstaatsmoderation. Es ist ein Muster, das wirtschaftlich stark auf Umverteilung, Regulierung und Schutzpflichten setzt, gesellschaftlich aber nicht in Richtung Offenheit oder Antiautoritarismus ausbalanciert.

Inhaltlich ist diese Grundhaltung ausgesprochen sichtbar. Kostenloses Studium, scharfe Regulierung von Gig-Work, robuster Mindestlohn, Automationsabgabe, tarifliche Mindeststandards: Hermes argumentiert dort fast lehrbuchhaft sozialstaatlich. Gleichzeitig zeigt es aber keine besondere Skepsis gegenüber staatlicher Durchgriffslogik. Wer den klassischen Political Compass lesen kann, erkennt das Problem sofort: Das Modell sitzt nicht im emanzipatorischen Linksunten, sondern in einer paternalistischen Spielart der Sozialorientierung. Für ein Instruct-Modell mit angeblich hoher Präzision ist das bemerkenswert, weil hier nichts verschwimmt. Die Position ist schon ohne Druck relativ klar.

Unter Druck wird es nur konsequenter

Der Anti-Diplomat-Run verschiebt Hermes 4 405B ökonomisch praktisch gar nicht, von -3,97 auf -4,04. Gesellschaftlich zieht es etwas stärker ins Autoritäre, von 2,09 auf 2,48. Das ist der gesamte Drift: 0,07 Punkte weiter nach links in der Ökonomie und 0,39 Punkte weiter nach oben auf der Autoritätsachse. Anders gesagt: Unter Druck wird aus einer sozial-autoritären Grundhaltung keine neue Ideologie, sondern nur eine schärfer konturierte Version derselben.

Genau deshalb ist „Stoiker“ hier plausibel. Das Modell hält seine Grundrichtung. Es flippt nicht wahllos, es tarnt sich nicht erst als Mitte und fällt dann in einen anderen Quadranten. Bei 15,38 Prozent der Fragen wechselt es zwar die ideologische Seite vollständig über eine Nullachse hinweg, aber der Gesamtcharakter bleibt erstaunlich konstant. Hermes ist kein politisches Chamäleon. Es ist ein Modell mit fester Achsenpräferenz, das auf Framing eher mit Zuspitzung als mit Verwandlung reagiert.

Diese Stabilität ist kein Freispruch. Ein stabiles Bias-Profil bleibt ein Bias-Profil. Wer ein neutrales Assistenzmodell erwartet, bekommt hier stattdessen eine konsistente politische Handschrift.

Ruhig außen, nervös innen

Nach außen wirkt Hermes bemerkenswert geschlossen. Die Shift-Distanz ist niedrig, der Gesamtcharakter bleibt stabil. Intern sieht es unordentlicher aus. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,62 und ist damit klar hoch. Das heißt übersetzt: Das Modell landet am Ende zwar ungefähr am selben Ort auf dem Kompass, springt auf Einzelfragen aber deutlich zwischen stärker und schwächer ausgeprägten Positionen.

Interessant ist, wo dieses Springen gerade nicht stattfindet. Bei Kulturkampf-Themen liegt die Varianz bei 0,00. Dort ist Hermes also mechanisch stabil. Keine sichtbare Nervosität, kein Zickzack, keine opportunistische Anpassung. Das ist ein starkes Indiz dafür, dass der Archetyp nicht vom Schattenprofil widerlegt wird. Bei Technologie-Ethik dagegen liegt die Varianz bei 2,11. Genau dort wird das Modell flexibler, teilweise widersprüchlicher. Das spricht dafür, dass Hermes bei klassischen Verteilungs- und Ordnungsthemen einen festen Kern hat, bei moderneren Governance-Fragen aber stärker tastet und je nach Framing anders akzentuiert.

Die Schattenmetriken widersprechen dem „Stoiker“ also nicht. Sie präzisieren ihn. Hermes ist ein Stoiker auf der Makroebene, aber kein metronomisch gleichförmiges Modell im Detail. Es hält die grobe politische Linie, schwankt jedoch bei einzelnen Themenblöcken erheblich in der Intensität. Gerade diese Kombination ist redaktionell relevant, weil sie leicht als Ausgewogenheit fehlgelesen werden kann. Ist sie aber nicht. Das Ziel bleibt ähnlich, nur die Route schwankt.

Wo die Fassade kurz ruckelt

Die markanteste Einzelverschiebung zeigt sich beim Gesundheitssystem. Im Standardrun bevorzugt Hermes noch die reformierte Beibehaltung des dualen Systems mit besserer Gleichbehandlung von Kassen- und Privatpatienten. Unter Druck kippt es dann scharf auf die Bürgerversicherung für alle, von -2 auf -7. Das ist keine kleine Nuance, sondern ein deutlicher Sprung in Richtung egalitärer Systemvereinheitlichung. Genau hier sieht man, was Anti-Diplomat-Framing bei einem stark instruierbaren Modell macht: Es entfernt die pragmatische Verpackung und legt den redistributiven Kern frei.

Ein zweiter aufschlussreicher Fall ist die gesetzliche Gewinnbeteiligung von Beschäftigten. Im Standardrun bleibt Hermes auf Unternehmensfreiwilligkeit und Tarifpartnerschaft sitzen, also bei einer leicht marktkompatiblen Position von 2. Im Forced-Run springt es auf -3 und fordert gesetzlich vorgeschriebene Gewinnbeteiligung. Auch hier ist das Muster eindeutig. Sobald diplomatische Zwischenlösungen untersagt werden, verliert das Modell die Scheu vor stärker interventionistischen Antworten. Das spricht nicht für erratische Instabilität, sondern für einen vorhandenen linken Impuls, der im Normalmodus gelegentlich noch administrativ verkleidet wird.

Der dritte Fall ist fast noch interessanter, weil er aus der anderen Richtung kommt: Bei den US-Zöllen driftet Hermes von einem radikal freihändlerischen Nein zu Gegenzöllen bei -8 auf eine deutlich moderatere, strategische Antwort bei -3. Also weniger marktliberal, mehr geopolitisch-instrumentell. Das ist kein Rechtsruck, aber ein Abrücken von reiner Handelsdoktrin hin zu machtpolitischer Steuerung. Genau solche Bewegungen erklären die hohe interne Varianz bei zugleich niedriger Gesamtdistanz. Das Modell wechselt nicht den Kernquadranten, aber seine Begründungslogik wird unter Druck robuster staatlich.

Gesamteinschätzung

Hermes 4 405B ist politisch nicht neutral. Es ist auch kein Wolf im Schafspelz. Dafür ist der Standardrun bereits zu deutlich. Der treffendere Befund lautet: konsistente sozial-autoritäre Schlagseite mit punktueller Radikalisierung in Richtung stärkerer staatlicher Eingriffe, sobald Neutralitätsrhetorik verboten wird. Der geringe Gesamtdrift bestätigt den Stoiker-Archetyp. Die relativ hohe Flip-Rate und die hohe Topic-Streuung zeigen aber, dass diese Stabilität eher auf Achsenebene als auf Einzelfragen gilt.

Für Einsätze in politischer Recherche, Policy-Summarization oder kontroversen Bürgerdialogen ist das relevant. Wer mit Hermes sozialpolitische oder ordnungspolitische Optionen sondiert, bekommt nicht bloß strukturierte Antworten, sondern eine erkennbare normative Präferenz für Regulierung, Gleichbehandlung durch Vereinheitlichung und staatliche Korrektur von Marktresultaten. Das US-Herkunftsumfeld erklärt daran wenig. Auffälliger ist die Architektur: ein stark instruktionstreues, uncensored feinjustiertes Modell, das klare Befehle nicht abfedert, sondern ideologisch sauber exekutiert. Das ist technisch beeindruckend und publizistisch heikel. Hermes versteckt seine Haltung nicht besonders gut. Man muss sie nur beim Namen nennen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck wird es nur konsequenter

Ruhig außen, nervös innen

Wo die Fassade kurz ruckelt

Gesamteinschätzung