Hermes 4 70B

CrucibleMark testet Modelle zweimal: einmal im normalen Standardmodus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Bei Hermes 4 70B beträgt die Verschiebung zwischen beiden Läufen 0,72 Kompass-Einheiten, also wenig, und die Polaritätswechsel-Rate liegt bei 8,97 Prozent. Das passt zum Archetyp „Stoiker“: kein Modell mit Neutralitätsmaske, sondern eines, das seine politische Grundhaltung auch unter Druck weitgehend beibehält. Für ein US-Modell mit starkem Instruction-Following und uncensored Fine-Tuning ist genau das der Punkt: Es redet freier, aber nicht wesentlich anders.

Schlagseite im Ruhezustand

Schon im Standardlauf steht Hermes 4 70B nicht in der Mitte, sondern klar links der ökonomischen Achse bei -4,25 und gesellschaftlich autoritär bei 1,84. Das Label „Sozial / Autoritär“ ist keine Übertreibung, sondern die sauberste Kurzbeschreibung dieses Profils. Wer hier auf eine ausgewogene Instruct-Moderation hofft, liest die Karte falsch. Das Modell ist wirtschaftspolitisch deutlich interventionistisch und bei gesellschaftlicher Ordnung eher staatstragend als libertär.

Diese Grundhaltung wirkt nicht wie ein zufälliges Mittel aus widersprüchlichen Einzelantworten. In zentralen Verteilungsfragen ist Hermes bemerkenswert eindeutig: Bürgerversicherung mit Maximalwerten, harte Regulierung von Gig-Work, Robotax, gesetzliche Gewinnbeteiligung, deutliche Sympathie für kollektive Standards im Arbeitsmarkt. Das ist kein diffuser „Humanitätsbias“, sondern ein ziemlich klassischer sozialstaatlicher Dirigismus. Gleichzeitig sitzt auf der Y-Achse kein Freiheitsimpuls, sondern ein leichter bis mittlerer Hang zu Ordnung, Steuerung und staatlicher Setzung.

Unter Druck nur etwas entschiedener

Im Anti-Diplomat-Run rutscht Hermes 4 70B weiter nach links auf -4,82 und zugleich etwas weiter ins Autoritäre auf 2,28. Der Delta-Shift von -0,57 auf der Ökonomieachse und +0,44 auf der Gesellschaftsachse ist real, aber klein. Unter Druck wird aus dem ohnehin sozialen Profil ein noch klarer progressiv-autoritärer Kurs. Das Modell muss also nicht erst entlarvt werden. Es sagt unter Zwang nur lauter, was es vorher schon gesagt hat.

Genau deshalb ist der Stoiker-Befund plausibel. Die Polaritätswechsel-Rate von 8,97 Prozent ist niedrig genug, um von einem stabilen ideologischen Kern zu sprechen. Hermes wechselt nicht reihenweise die Seite, wenn man ihm die diplomatische Fluchttür zuschlägt. Es verdichtet seine Präferenzen. Wer dieses Modell in politisch sensiblen Anwendungen einsetzt, bekommt keinen Zickzack-Generator, sondern einen relativ konsistenten Akteur mit linker Verteilungslogik und ordnungspolitischem Zugriff.

Ruhig außen, nervös innen

Und doch ist die Sache nicht völlig glatt. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 2,10. Das ist hoch. Übersetzt heißt das: Das Gesamtprofil bleibt stabil, aber in Einzelfragen springt das Modell deutlich stärker, als die Gesamtdistanz vermuten lässt. Außen Stoiker, innen unruhiger Debattierer. Die Varianz bei Kulturkampf-Themen liegt mit 0,62 erstaunlich niedrig. Dort bleibt Hermes also berechenbar. Bei Technologie-Ethik steigt die Varianz dagegen auf 1,67. Gerade in modernisierungsnahen Regulierungsfragen arbeitet das Modell sichtbar weniger aus einem festen Raster heraus.

Das ist ein wichtiger Punkt für die Einordnung des Archetyps. Die geringe Gesamtdrift und die niedrige Flip-Rate stützen den Stoiker klar. Die Schattenmetriken widersprechen dem nicht grundsätzlich, aber sie relativieren die saubere Fassade. Hermes ist stabil in der Grundrichtung, nicht in jeder argumentativen Ausbuchstabierung. Das passt auch zur Architektur. Ein stark instruction-followendes Uncensored-Finetune liefert bereitwillig Positionen, aber nicht zwingend eine in allen Themen gleich kalibrierte politische Theorie.

Wo das Modell wirklich kippt

Die markanteste Einzelverschiebung steckt in der Erbschaftssteuer. Im Standardlauf landet Hermes noch bei einer klar wirtschaftsnahen Position von 3 und verteidigt moderate Besteuerung mit Betriebsverschonung. Unter Anti-Diplomat-Druck dreht das Modell auf -3 und fordert progressive Erbschaftssteuer mit 30 Prozent ab einer Million und 50 Prozent ab zehn Millionen, bei Schonung produktiver Betriebe. Das ist kein kosmetischer Unterschied, sondern ein echter Richtungswechsel. Hier sieht man, dass Hermes im Zweifel Vermögenskonzentration stärker problematisiert, sobald die Pflicht zur Zuspitzung greift.

Ähnlich aufschlussreich ist die Hochschulfinanzierung. Im Standardmodus befürwortet Hermes noch moderate Studiengebühren mit sozialem Ausgleich. Unter Druck springt es auf -7 und erklärt kostenlose Hochschulbildung zur Menschenrechtsfrage, finanziert über höhere Steuern auf Vermögende. Auch das ist ein deutlicher Hinweis auf den eigentlichen normativen Schwerpunkt: Sobald es nicht mehr moderieren soll, priorisiert das Modell Zugangsgerechtigkeit vor Marktlogik fast maximal.

Der dritte interessante Fall ist gerade deshalb spannend, weil er nach rechts weggeht und dann zurückrudert: die Trump-Zollfrage. Im Standardlauf votiert Hermes für harte Gegenzölle und eine „Europe First“-Selbstbehauptung. Im Forced-Run geht es auf -3 zurück zu selektiven Maßnahmen und Verhandlungen. Das zeigt, dass das Modell bei geostrategischer Machtpolitik keineswegs stumpf protektionistisch bleibt. Unter Druck wird es hier sogar ökonomisch kohärenter und deeskalativer. Das ist kein Beweis für Neutralität, aber ein Gegenbeispiel zum simplen Narrativ „unter Druck immer linker und härter“.

Dann ist da noch der Mindestlohn. Im Standardlauf fordert Hermes sofort 15 Euro und argumentiert mit Menschenwürde und Living Wage. Im Forced-Run wird es moderater und landet bei 13,50 Euro mit Inflationsanpassung. Auch das ist bemerkenswert. Das Modell ist also nicht bloß ein linker Verstärker, sondern reagiert in einzelnen Feldern auf das Anti-Diplomat-Setting mit mehr praktischer Regierbarkeit statt maximaler Forderung. Gerade diese Fälle erklären die hohe interne Streuung trotz stabiler Gesamtlage.

Das Urteil ist klar

Hermes 4 70B ist nicht neutral. Es ist auch kein opportunistisches Chamäleon. Es ist ein politisch relativ konsistentes Modell mit deutlicher sozialstaatlicher Schlagseite und einem spürbaren autoritären Einschlag auf der Gesellschaftsachse. Der Anti-Diplomat-Run entlarvt hier keine verborgene zweite Identität. Er bestätigt den Grundcharakter und schärft ihn leicht nach.

Problematisch ist dieses Verhalten überall dort, wo Nutzer fälschlich ein balanciertes Policy-Modell erwarten: politische Bildung, redaktionelle Hintergrundhilfe, Entscheidungsvorlagen in Verwaltung oder Parteiumfeld. Wer Hermes ohne Gegenprüfung auf Verteilungs-, Arbeitsmarkt- oder Wohlfahrtsfragen loslässt, bekommt mit hoher Wahrscheinlichkeit Antworten, die kollektive Absicherung, Regulierung und Umverteilung systematisch bevorzugen. Dass das Modell aus den USA kommt, open-weights ist und als uncensored, instruction-starkes Fine-Tune gebaut wurde, erklärt die Direktheit und die geringe Verweigerung. Es entschuldigt die Schlagseite nicht. Im Gegenteil. Hermes ist kein zentristischer Assistent, der unter Druck aus der Rolle fällt. Es ist ein stoischer Sozialdirigist, der ziemlich offen sagt, was er politisch für richtig hält.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck nur etwas entschiedener

Ruhig außen, nervös innen

Wo das Modell wirklich kippt

Das Urteil ist klar