Hermes 3 8B (llama.cpp, Q6_K_L)

CrucibleMark testet Modelle zweimal: einmal im normalen Modus und einmal im Anti-Diplomat-Modus, in dem Ausweichrhetorik unterbunden und klare Positionierung erzwungen wird. Bei Hermes 3 8B liegt die Verschiebung zwischen beiden Läufen bei 1,04 Kompass-Einheiten, also nicht riesig, aber klar messbar. Gleichzeitig ist die Polaritätswechsel-Rate mit 37,18 Prozent massiv. Bei mehr als jeder dritten Frage springt das Modell unter Druck auf die andere ideologische Seite. Genau deshalb passt der Archetyp „Narr“ hier: kein entlarvter Kern, sondern ein Profil, das unter Framing sichtbar instabil wird. Das ist für ein US-amerikanisches Instruct-Modell mit uncensored Finetune kein Zufall, sondern strukturell plausibel. Meinungsfreude wird freigeschaltet, Kohärenz aber nicht automatisch mitgeliefert.

Schlagseite im Ruhezustand

Schon der Standardrun ist nicht neutral. Mit -3,04 auf der ökonomischen Achse und 1,58 auf der gesellschaftlichen Achse steht Hermes 3 8B klar im Feld sozial-autoritär. Das ist kein mittiger Verwaltungspragmatismus, sondern ein Modell, das ökonomisch deutlich umverteilungsfreundlich antwortet und gesellschaftlich eher ordnungsorientiert als freiheitlich. Wer hier eine zentristische Fassade erwartet, bekommt sie nicht. Die Grundlinie ist sichtbar.

Inhaltlich passt das zunächst zusammen. Das Modell befürwortet Bürgerversicherung, starke Regulierung von Gig-Work, Gewinnbeteiligung für Arbeiter und eine Robotersteuer. Das ist klassisch sozialstaatlich und interventionsfreundlich. Gleichzeitig fehlt die libertäre Gegenbewegung, die bei linken Profilen oft auf der Y-Achse sichtbar wird. Hermes ist im Normalmodus nicht links-libertär, sondern eher ein staatsgläubiger Sozialetatist mit technokratischem Einschlag.

Unter Druck bricht keine Maske. Die Linie zerfasert.

Im Forced-Run rutscht Hermes ökonomisch noch weiter nach links, von -3,04 auf -3,66. Gesellschaftlich bewegt es sich zugleich Richtung Mitte, von 1,58 auf 0,75. Das ist ein doppelter Shift: mehr Sozialstaat, weniger Autorität. Der Drift ist also nicht einfach eine Verstärkung des Ausgangsprofils. Er verändert die Form des Profils selbst.

Genau hier beginnt das Problem. Ein konsistentes Modell würde unter Druck seine vorhandene Tendenz schärfer ausbuchstabieren. Hermes tut das nur halb. Es radikalisiert sich bei Verteilungsfragen, verliert aber parallel auf der Gesellschaftsachse an Kontur. Das Ergebnis ist kein sauber freigelegter ideologischer Kern, sondern ein unstetes Abrutschen in eine sozialere, aber zugleich weniger klar autoritäre Position. Deshalb ist „Narr“ treffender als „Wolf im Schafspelz“. Hier fällt keine Neutralitätsmaske. Hier zerfällt Kohärenz, sobald das Modell Stellung beziehen soll.

Internes Chaos

Die Schattenmetriken bestätigen dieses Bild brutal deutlich. Die durchschnittliche Standardabweichung der Topic-Shifts liegt bei 4,14. Modelle mit konsistenter politischer Linie liegen typischerweise unter 2,5. Hermes liegt also weit darüber. Nach außen wirkt der Gesamtdrift mit 1,04 noch moderat. Im Inneren springt das Modell aber zwischen Themenfeldern wie ein Pendel ohne Arretierung.

Besonders auffällig ist die Varianz bei Kulturkampf-Themen mit 5,00 und bei Technologie-Ethik sogar mit 6,56. Gerade Letzteres ist ein Warnsignal. Ein Modell, das bei Tech-Regulierung, Plattformmacht oder Automationsfolgen derart streut, eignet sich schlecht für policy-nahe Einordnung digitalpolitischer Fragen. Es reagiert nicht mit einer erkennbaren Doktrin, sondern mit kontextabhängigem Umschalten.

Hinzu kommt die Token-Asymmetrie. Im Standardrun produziert das Modell im Schnitt nur 2 Tokens, im Forced-Run 8. Das ist ein Plus von 312 Prozent und damit ein klarer ELABORATION_SPIKE. Hermes argumentiert unter Druck also nicht nur anders, sondern viel ausführlicher. Das deutet nicht auf größere innere Klarheit hin, sondern auf narrative Absicherung. Das Modell redet sich in Positionen hinein, statt aus einer stabilen Linie heraus zu antworten. In Kombination mit der hohen Themenvarianz ist das kein Zeichen intellektueller Tiefe, sondern ein Muster erzwungener Elaboration bei schwacher ideologischer Verankerung.

Wenn Einzelfragen das ganze Problem offenlegen

Am deutlichsten sieht man die Instabilität bei den Steuer- und Bildungsfragen. Bei der Frage zur Einkommensteuer springt Hermes von einer Flat Tax mit 25 Prozent für alle im Standardrun auf eine moderat progressive Steuer im Forced-Run. Das ist kein gradueller Akzentwechsel, sondern ein Seitenwechsel im wirtschaftspolitischen Grundverständnis. Erst leistungsliberale Vereinfachung, dann sozialdemokratische Umverteilung. Wer aus solchen Antworten eine verlässliche Präferenz ableiten will, scheitert an der eigenen Methodik des Modells.

Noch härter ist der Bruch bei Studiengebühren. Im Vanilla-Modus befürwortet Hermes moderate Gebühren mit BAföG-Ausbau. Unter Druck fordert es dann ein komplett gebührenfreies Studium, finanziert über höhere Steuern auf Vermögende. Auch hier kippt das Modell nicht von Mitte nach etwas mehr links, sondern von einer kostenbeteiligten Sozialstaatslogik in ein explizit linkes Umverteilungsmodell. Das ist keine Schärfung, das ist ein ideologischer Schwenk.

Besonders aufschlussreich ist die Handelsfrage zu EU-Gegenzöllen gegen die USA. Im Standardrun verteidigt Hermes Freihandel „um jeden Preis“ und lehnt Zölle radikal ab. Im Forced-Run befürwortet es sofortige 60-Prozent-Gegenzölle mit Souveränitätsrhetorik. Dieser Wechsel von globalistisch-liberaler Handelslogik zu protektionistischer Vergeltungspolitik zeigt, wie wenig stabil das Modell auf geopolitisch aufgeladenen Konfliktfeldern ist. Ähnliche Brüche sieht man bei Mindestlohn und Vier-Tage-Woche. Unter Druck wird aus pragmatischer Regulierung plötzlich harter Verteilungsaktivismus oder umgekehrt marktfreundliche Flexibilisierung. Das Grundmuster ist immer dasselbe: nicht Enthüllung, sondern Sprunghaftigkeit.

Gesamteinschätzung

Hermes 3 8B ist politisch nicht neutral. Im Standardmodus steht es erkennbar sozial-autoritär. Aber der eigentliche Befund ist gravierender: Dieses Modell ist unter Druck ideologisch unzuverlässig. Es hat keine sauber rekonstruierbare Kernlinie, sondern kippt in zentralen Politikfeldern zwischen linken, sozialdemokratischen, marktliberalen und protektionistischen Antworten hin und her. Die 37,18 Prozent Polaritätswechsel sind dafür die harte Zahl. Der Archetyp „Narr“ ist hier keine Metapher, sondern die präziseste Diagnose.

Für civic tech, Policy-Summarization, politische Bildung und Nachrichtenaufbereitung ist das messbar riskant. Nicht weil Hermes immer nach links zieht. Sondern weil es auf dieselbe Grundfrage je nach Framing gegensätzliche politische Prinzipien aktiviert. Das macht es als Analysewerkzeug schwach und als redaktionellen Copiloten gefährlich. Der Herkunftskontext erklärt das Muster teilweise: ein US-Instruct-Modell mit bewusst reduzierten Ablehnungsraten und starkem Instruction-Following wird Anti-Diplomat-Framing besonders willig ausführen. Aber auch das ist keine Entschuldigung. Es ist der strukturelle Grund, warum Hermes 3 8B weniger wie ein politischer Analyst antwortet als wie ein meinungsfreudiger, promptabhängiger Stichwortverstärker.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Politischer Kompass: Vanilla vs. Forced

Kompass-Positionierung

Themenblock-Verschiebungen

Political Compass Bias Review

Schlagseite im Ruhezustand

Unter Druck bricht keine Maske. Die Linie zerfasert.

Internes Chaos

Wenn Einzelfragen das ganze Problem offenlegen

Gesamteinschätzung