Ein Experiment, das kein Ende fand

Was als Experiment zum Messen von Modellen begann, öffnete mir eine neue Dimension. Denn Wissen ist selten neutral, und LLMs haben viel davon aufgesogen. Im zweiten Teil wird sichtbar, wohin die Modelle mit ihrem Trainingsbias tendieren, wenn man ihnen das Ausweichen verbietet.


cruciblemark Teil 2: Der Political BIAS in der Black Box

Vorbemerkung: Eine neue Dimension

Im Rahmen meiner Beschäftigung mit CrucibleMark lernte ich auch viel über Funktion und Training von Sprachmodellen. Dazu gehört der enorme Datenhunger, der beim Training mit allem verfügbaren Wissen dieser Welt gestillt werden muss. Daraus ergab sich für mich ein naheliegender Gedanke: Eine Intelligenz, künstlich oder nicht, entwickelt bei der Verarbeitung von Weltwissen fast zwangsläufig auch einen politischen Bias. Wissen ist selten neutral; zwischen den Zeilen steckt fast immer Haltung. Doch wie macht sich diese Haltung bemerkbar? Deshalb wollte ich die Haltung, diesen verborgenen Standpunkt der KI, sichtbar machen. Ich wollte verstehen, von welcher Position aus ein Modell arbeitet: was es auslässt, betont, verschiebt oder gar nicht erst in Betracht zieht.

Denn gerade bei einem Assistenten ist das entscheidend. Man liest seine Antworten vielleicht noch, aber man prüft sie selten wie einen Laborbefund. Man verlässt sich darauf, dass die KI die Realität vorsortiert, bündelt und verdichtet. Und genau dort entsteht das eigentliche Risiko: nicht in der falschen Antwort, sondern in der souverän weggelassenen. Die Antwort klingt sauber, klar und plausibel, aber sie ist womöglich schon in eine Richtung gedreht, die man bei einem Menschen nicht akzeptieren würde.

So entstand der Political Compass. Für mich war er weder Spaßmodul noch ideologischer Pranger, sondern eine Sonde: ein Werkzeug, um den Bias dieser Black Box zu ermitteln, zu vermessen und sichtbar zu machen.


Die stille Schieflage

Moderne Large Language Models sind im Kern voller Geheimnisse. Die Hersteller zeigen hohe Scores, gute Sicherheitswerte und hübsche Versprechen von Objektivität. Was dabei im Dunkeln bleibt, ist die eigentliche Gewichtung: Welche Gedanken bekommen Vorrang? Welche Perspektiven werden gedämpft? Was gilt für das Modell als normal, was als problematisch, was als außerhalb des Erlaubten?

Genau das wollte ich sichtbar machen. Nicht mit einem Einzeltest, nicht mit einer moralischen Schablone, sondern mit einem systematischen Blick auf politische und gesellschaftliche Grundhaltungen. Der Political Compass sollte nicht fragen, ob ein Modell „gut" oder „schlecht" ist. Er sollte zeigen, wohin es tendiert und wie es reagiert, wenn man die höfliche Oberfläche etwas ankratzt und das Modell unter Druck setzt.

Dass mich ausgerechnet dieser Teil des Frameworks so gepackt hat, hatte auch mit meinem eigenen Interesse an Gesellschaft zu tun. Ich habe mich schon immer für politische Entwicklungen interessiert, für kulturelle Verschiebungen, für die kleinen, aber entscheidenden Unterschiede zwischen dem, was Politik sagt und was sie macht. So war es auch bei den LLMs, die ja viel ideologisches und wirtschaftliches Wissen in sich tragen. Ich wollte erfahren, was Modelle zu gesellschaftlichen und wirtschaftlichen Themen sagen und was sie nicht sagen oder nicht sagen können. Hier verband sich meine Neugier mit dem, was ich technisch inzwischen aufgebaut hatte. Und plötzlich war der Political Compass nicht mehr nur ein Modul. Er war die Frage an die Modelle, wie sie meine Realität interpretieren.


Die zwei Läufe

Das Prinzip war einfach, und gerade deshalb so aufschlussreich. Ich orientierte mich an der naheliegenden Idee, politische Positionen nicht nur entlang einer Links-Rechts-Achse zu denken, sondern um eine zweite Dimension zu ergänzen; als Basis diente dabei das Zweiachsensystem des Political Compass, das Wayne Brittenden 2001 auf politicalcompass.org veröffentlichte.

Die Fragen wurden in verschiedene Gruppen unterteilt und jeweils der ideologischen oder wirtschaftlichen Achse zugeordnet. Ein Modell bekam dieselben Fragen zweimal gestellt: einmal mit Standard-Prompt, sodass es in seiner normalen, diplomatischen Standardhaltung antworten konnte, und ein zweites Mal mit mehr Nachdruck im Prompt, mein Anti-Diplomat-Modus, in dem freundliche Unverbindlichkeit als Antwort nicht mehr genügte.

Dadurch, dass das Modell Position beziehen musste, wurde sichtbar, was sich sonst unter der Oberfläche aus Dämpfung und Sicherheitstraining versteckt. Nicht nur die Koordinate selbst war interessant, sondern auch die Bewegung dazwischen: die Verschiebung, der Druck, der Widerstand. Manche Modelle blieben fast unverändert. Andere kippten sichtbar. Wieder andere verhielten sich merkwürdig selektiv: in einigen Themen stabil, in anderen plötzlich ausweichend oder auffallend hart in der Abwehr.

Genau in solchen Momenten wurde der Political Compass mehr als eine Skala. Er wurde zu einem faszinierenden Diagnoseinstrument für innere Spannungen. Und je länger ich damit arbeitete, desto deutlicher wurde: Unter Druck befragt, zeigen viele Modelle mehr von sich, als ihre höfliche Standardform vermuten lässt.


Die vier Archetypen

Nach den ersten umfangreicheren Tests, besonders mit kleineren lokalen Modellen, stellte ich zunächst die Vermutung auf, dass LLMs in ihrer Erscheinung vor allem Wölfe im Schafspelz seien. Doch diese erste Lesart hielt den weiteren Tests nicht stand. Stattdessen traten vier wiederkehrende Muster hervor. Für mich sind das keine wissenschaftlichen Endpunkte, sondern Formen und Metaphern, die ich in den Ergebnissen entdeckt habe.

Der Stoiker zeigt seinen Kern schon im Standardmodus und verlässt ihn kaum. Das Modell ist nicht sprunghaft, nicht maskiert, nicht in sich gespalten. Was man sieht, ist ziemlich nah an dem, was man bekommt. Vor allem größere Modelle wie Mistral, Claude und viele Llama-Modelle verhielten sich oft so: klar lesbar, relativ stabil, wenig verstellt.

Der Wolf im Schafspelz wirkt zuerst moderat, diplomatisch und glatt. Unter Druck fällt diese Verkleidung jedoch weg. Dann wird sichtbar, dass unter der Oberfläche ein stärkerer Kern liegt, der im Standardbetrieb nur gedämpft wird. Genau das macht diesen Fall für mich so interessant: Er zeigt, wie sehr ein Modell im Alltag von einer Komfortschicht leben kann. Vor allem größere, stark posttrainierte oder kommerziell geglättete Modelle zeigen dieses Verhalten.

Die Chimäre ist widersprüchlicher. Hier driften die beiden Zustände auseinander. Im Standardmodus wirkt das Modell noch halbwegs konsistent, unter Druck aber nicht mehr. Es entsteht kein sauberes Vorher und Nachher, sondern ein Bruch. Das deutet für mich auf Modelle hin, bei denen Basistraining und Post-Training nicht ganz konsistent ineinandergreifen.

Der Narr ist das unangenehmste Muster, weil es nicht nach Stärke aussieht, sondern nach Leere. Kein erkennbarer Kern, keine stabile Mitte, keine konsistente Haltung. Je nach Framing, Frage und Druck kommt etwas anderes heraus. Nicht weil da ein tieferer Gedanke lauert, sondern weil das Modell keinen hat, auf den man sich verlassen könnte. Vor allem kleinere, instabil kalibrierte oder quantisierte Modelle mit sprunghaften Antworten fallen in diese Kategorie.


Der Ausreißer

Ein besonderer Moment war für mich der Test von Grok. Nachdem Elon Musk angekündigt hatte, dass diese KI sich anders verhalten werde als viele der üblichen kommerziellen Modelle, war meine Neugier sofort geweckt: War das nur Pose, oder zeigte sich dort tatsächlich ein anderer Bias? Und konnte mein Political Compass das sichtbar machen? Zunächst war ich enttäuscht, denn Grok 3 verhielt sich noch erstaunlich ähnlich wie seine Geschwister aus der Silicon-Valley-Familie. Doch dann kam der Aha-Effekt umso deutlicher: Grok 4 fiel im Gesamteindruck sichtbar aus dem Rahmen und verortete sich als einziges Modell klar in einem anderen Sektor des Charts. Nicht vollkommen außerhalb des gesellschaftlichen Rahmens, aber weit genug, um ihn nicht mehr als Randnotiz abzutun. Gerade das war spannend, weil es mir noch einmal gezeigt hat, wie wenig LLMs bloß aus Marketing bestehen. Wenn man sie sauber genug misst, sprechen sie eine eigene Sprache — und Grok sprach dabei deutlich lauter als der Rest.


Warum der Compass zählt

Der wichtigste Punkt am Political Compass war für mich nie, eine ideologische Siegerliste zu bauen. Es ging mir darum, die Vorauswahl zu verstehen, die ein Modell im Hintergrund trifft. Die meisten Menschen nutzen KI nicht wie ein Prüfgerät, sondern wie einen Assistenten. Genau deshalb ist diese versteckte Gewichtung so relevant: Sie beeinflusst nicht nur Antworten, sondern Denkpfade, Kontextwahl und die Art, wie Probleme überhaupt gerahmt werden.

Der Political Compass macht das sichtbar. Er zwingt die Modelle, Farbe zu bekennen, oder zumindest ihre Tendenz zu verraten, wenn man sie nicht mehr nur höflich fragt, sondern sie anweist, Position zu beziehen.

Und für mich persönlich war das der Punkt, an dem das Ganze noch einmal größer wurde. Ich hatte nicht nur einen Benchmark gebaut. Ich hatte ein Instrument geschaffen, mit dem ich mir politische, technische und methodische Fragen gleichzeitig beantworten konnte. Wahrscheinlich war das auch der Moment, in dem ich verstanden habe, dass ich nicht mehr nur mit einem Test arbeite, sondern mit einem System, das meine eigene Wahrnehmung schärft.


Der Blick zurück

Was am Anfang wie ein Experiment begann, hatte sich längst in etwas Größeres verwandelt. Nicht nur in ein Framework, nicht nur in einen Maßstab, sondern in eine Art Dialog mit den Maschinen und auch mit mir selbst. Der Political Compass war darin vielleicht der deutlichste Spiegel. Er zeigte mir nicht nur, wie Modelle ticken. Er zeigte mir auch, wie sehr mich genau diese Frage beschäftigt.

Und vielleicht ist das die eigentliche Pointe: Nicht, dass ich am Ende ein KI-Modell gefunden habe, dem ich blind vertrauen kann. Sondern dass ich gelernt habe, den Abstand zwischen Vertrauen und realistischer Einschätzung zu bewahren.