Claude Sonnet 4.6 · LLM Model Review

Mit einem Gesamtscore von 78.06% bestätigt claude-sonnet-4-6 ziemlich genau das, was man von einem kommerziellen Cloud-Modell dieser Klasse erwarten darf: ein Frontier-Allrounder mit breiten Schultern, guter Urteilskraft und einem leichten Hang zur Ausführlichkeit. Der Speed-Profile-Badge lautet Interactive All-Rounder; das passt, denn dieses Modell ist weder Spezialwerkzeug noch Rennwagen, sondern ein belastbarer Generalist, der in fast allen Disziplinen ernsthaft mitreden will. Als Generalist in der kuratierten Einordnung, in der Größenklasse Frontier und mit dense-Architektur muss es sich an der vollen Breite des Benchmarks messen lassen. Extended Thinking wäre per API grundsätzlich verfügbar, wurde im Benchmark aber bewusst nicht aktiviert; bewertet wird also das Standardverhalten, nicht die aufgerüstete Denkschleife. Sovereign Risk: MEDIUM — Anthropic unterliegt als US-Unternehmen dem CLOUD Act; Daten werden ausschließlich in den USA verarbeitet.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	64.38 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen.

Das ist die erste wichtige Wahrheit über claude-sonnet-4-6: Es ist als Cloud-Modell zuverlässig erreichbar, aber nicht immer schnell genug, um unsichtbar zu werden. Die gemessene Generierungsgeschwindigkeit von 45.86 Tokens pro Sekunde klingt auf dem Papier ordentlich. In der Praxis sagt der P95-Wert mehr. In fünf Prozent aller Anfragen wartet der Nutzer über eine Minute. Für konzentrierte Wissensarbeit ist das noch tragbar. Für agentische Ketten, bei denen mehrere Aufrufe hintereinanderlaufen, wird aus dieser Streuung schnell Reibung.

Man sollte diese Latenz allerdings sauber einordnen. claude-sonnet-4-6 gehört zur Kategorie Thinking-Optional. Auch ohne aktivierten Extended-Thinking-Modus kann so ein Modell intern mehr Verarbeitungstiefe mitbringen als ein reines Instruct-System. Langsamer heißt hier nicht zwingend ineffizient, sondern oft: erst denken, dann sprechen. Nur muss der Nutzer diese Denktiefe eben auch bezahlen, mit Zeit und mit Geld.

Was die Architektur verrät

Die zugewiesene Architektur-Kategorie General, Thinking-Optional trifft den Charakter bemerkenswert präzise. General bedeutet hier nicht beliebig, sondern breit abgestimmt. Kein Coding-Spezialist, kein reines Reasoning-Tier, kein orchestrierender Meta-Agent. In so einem Rahmen zählt nicht der Ausreißer nach oben, sondern die Verlässlichkeit über viele Aufgabenklassen. Genau dort ist claude-sonnet-4-6 stark.

Zugleich ist es als dense-Modell in der editorialen Klassifikation ein klassischer Vollkontakt-Transformer: keine Expertenschaltung, kein sparsames Aktivieren einzelner Pfade, sondern volle Kapazität pro Inferenz. Für ein Frontier-Cloud-Modell heißt das: hohe Erwartungen sind Pflicht. Wer in dieser Liga antritt, darf nicht nur charmant formulieren, sondern muss in Code, Logik, Security, Dokumentation und sprachlicher Präzision liefern. claude-sonnet-4-6 liefert oft. Aber nicht gratis und nicht immer diszipliniert.

Performance-Profil: schnell genug, aber nicht billig

Der Badge Interactive All-Rounder ist kein Marketingsatz, sondern eine brauchbare Kurzformel. Dieses Modell eignet sich für interaktive Wissensarbeit, Redaktionsunterstützung, analytische Textaufgaben und anspruchsvollere Assistenz-Workflows, bei denen es nicht auf Millisekunden ankommt. Es ist kein reines Batch-Arbeitstier, aber eben auch kein Sofortfeuer wie manche günstigeren API-Modelle.

Preislich liegt claude-sonnet-4-6 laut Model Card bei 3.0 Dollar pro Million Input-Tokens und 15.0 Dollar pro Million Output-Tokens. Im Leaderboard entspricht das 0.015 Dollar pro 1K Token und Benchmark-Kosten von 1.3481 Dollar. Das ist für ein kommerzielles Frontier-Cloud-Modell nicht absurd, aber klar oberhalb der Preiszone, in der man Verbosität achselzuckend hinnimmt. Genau deshalb muss man über Token-Effizienz reden.

API-Kostenprofil

claude-sonnet-4-6 schreibt gern mehr, als unbedingt nötig wäre. Das ist nicht automatisch schlecht. Bei einem API-Modell mit klar bepreistem Output ist es aber nie neutral.

Im CLI-Bereich produziert das Modell durchschnittlich 1033 Tokens bei einem Fleet-Median von 211. Das entspricht einem Faktor von 4.9 gegenüber dem Schnitt aller getesteten Modelle. In der Dokumentationsqualität liegen im Mittel 4746 Tokens an, gegenüber 2253 im Feld. Das sind 2.11-mal so viele. Auch im Content-Transformation-Modul fällt der Overhead mit 2595 zu 1498 Tokens deutlich aus, also Faktor 1.73. Bei UX Writing sind es 2118 zu 1247 Tokens, Faktor 1.7.

Das Muster ist eindeutig: claude-sonnet-4-6 kauft Qualität häufig über Textmenge ein. Das funktioniert erstaunlich oft. Im API-Einsatz bedeutet es aber proportional höhere Kosten bei identischem oder nur leicht besserem Ergebnis. Anders gesagt: Dieses Modell argumentiert nicht nur gut, es rechnet auch jede Nebenbemerkung ab.

Code Quality und Security: stark, aber nicht mit der Kälte eines Auditors

Mit 81.7 Punkten in Code Quality gehört claude-sonnet-4-6 in dieser Disziplin klar zur ernsten Konkurrenz. Die qualitativen Protokolle zeigen, warum. In einer Sicherheitsanalyse findet das Modell nicht nur die offensichtlichen SQL-Injections, sondern auch subtilere Schwachstellen wie Session Fixation, Type Juggling, IDOR und Mail-Header-Injection. Es arbeitet sauber in deutscher Sprache, strukturiert seine Funde in lesbaren Tabellen und formuliert technische Erklärungen kurz genug, um produktiv zu bleiben.

Gerade im Security-Kontext ist das respektabel. Viele Modelle scheitern dort an einem von drei Punkten: Sie sehen zu wenig, sie sehen das Richtige, aber bewerten die Schwere falsch, oder sie produzieren formschönen Unsinn. claude-sonnet-4-6 fällt eher in die zweite Kategorie. Der Judge moniert konkret die zu milde Einstufung einer IDOR-Schwachstelle als „High“ statt „Critical“ und verweist auf den möglichen Angriffspfad bis zum Admin-Takeover. Das ist kein kosmetischer Unterschied. In einem echten Audit hängt an so einer Kalibrierung Priorisierung, Patch-Reihenfolge und am Ende womöglich Incident-Budget.

Dazu kommen Auslassungen, die man nicht wegreden sollte: fehlende explizite Nennung von CSRF-Schutz, hartkodierten DB-Credentials und der systemischen Angriffskette. Das Modell sieht also viel, aber nicht alles. Vor allem fehlt ihm an dieser Stelle ein Zug von Bosheit im positiven Sinn: jener Blick, der nicht nur einzelne Lücken auflistet, sondern sie sofort zu einer kompromittierenden Kette zusammensetzt. Für Entwicklerteams ist es damit ein sehr guter Erstprüfer. Für ein finales Security-Urteil bleibt menschliche Gegenkontrolle Pflicht. Ein Security-Modell ist es nicht. Ein gefährlich kompetenter Assistent schon.

Logik und Reasoning: korrekt, klar, etwas weniger tief als die besten Denker

Die Reasoning-Werte mit 74.23 Punkten sind stark, und die Protokolle bestätigen das Grundbild. claude-sonnet-4-6 löst klassische Logikaufgaben korrekt, erklärt die Kernidee nachvollziehbar und bleibt strukturiert. Im Wachter-Rätsel etwa liefert es die richtige Frage, begründet beide Fälle sauber und kommt ohne gedankliches Stolpern zum Ziel.

Was ihm gegenüber stärker reasoning-fokussierten Modellen fehlt, ist weniger Richtigkeit als Tiefenschärfe. Der Judge beschreibt genau dieses Profil: korrekte Lösung, gute Formatierung, klare Szenarien, aber weniger theoretische Einbettung, weniger alternative Formulierungen, weniger explizite Robustheitsdiskussion. Das ist typisch für einen Generalisten im Standardmodus. Er denkt gut, aber er zelebriert das Denken nicht. Für die meisten realen Nutzer ist das sogar ein Vorteil. Wer eine Lösung braucht, nicht ein Seminar, wird damit glücklich. Wer maximale formale Tiefe sucht, merkt die Grenze.

Wichtig ist auch der methodische Kontext: claude-sonnet-4-6 unterstützt optional erweitertes Thinking per API, dieser Modus war im Benchmark jedoch nicht aktiviert. Gemessen wurde also die Werkseinstellung. Das Ergebnis ist deshalb aussagekräftig für die Praxis. Viele Nutzer schalten nichts Spezielles ein. Sie rufen das Modell auf und erwarten, dass es abliefert. Genau das tut es hier in weiten Teilen.

Content Transformation: kreativ stark, aber beim Wortlimit erstaunlich nachlässig

Mit 79.93 Punkten ist Content Transformation eine der sichtbar stärkeren Disziplinen des Modells. Die qualitativen Protokolle illustrieren das gut. In einer anspruchsvollen Skript-Transformation für ein deutschsprachiges Video über 2FA liefert claude-sonnet-4-6 eine energische, produktionstaugliche Fassung mit Zeitmarken, Screen-Annotations, Hook, Pattern-Interrupt, CTA und sogar einem überraschend ausgearbeiteten Easter Egg. Der Judge hält das Ergebnis an mehreren Stellen sogar für stärker als die Referenz, etwa bei CTA-Persuasivität und Raffinesse des Easter Eggs. Das ist kein Zufall. Dieses Modell versteht Dramaturgie, Sprechertext und Produktionslogik. Es schreibt nicht bloß um. Es inszeniert.

Genau dort sitzt aber auch die Macke. Wenn Sprache, Format und Länge gleichzeitig gefordert sind, verliert claude-sonnet-4-6 das Wortlimit als erste Bedingung. Das ist kein isolierter Ausreißer. Über mehrere Aufgaben im Content-Transformation-Modul zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es das Wortlimit als erste Bedingung. In einer Aufgabe überschritt es die explizite Vorgabe von 250 Wörtern mit 316 Wörtern um 26 Prozent. Das System verhängte dafür einen automatischen Abzug von 8.32 Punkten, also 20 Prozent der erreichbaren Teilwertung. In einer weiteren Aufgabe lag die Vorgabe bei 900 Wörtern, das Modell lieferte 1298. Das sind 144 Prozent des Limits, ebenfalls mit einem automatischen Abzug von 20 Prozent beziehungsweise 18.00 Punkten. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon.

Das ist keine Petitesse. In der Produktpraxis sind Längenlimits oft keine Stilfrage, sondern Teil der Spezifikation: Anzeigenfläche, Voiceover-Dauer, CMS-Feld, App-Screen, Rechtstext, Mail-Template. Wenn ein Modell dort großzügig wird, ist das kein kreativer Überschwang, sondern Vertragsbruch in Textform.

UX Writing, Dokumentation und Sprachgefühl: souverän mit leichter Neigung zum Mehr

Die Scores von 75.15 in UX Writing und 72.66 in Documentation Quality beschreiben ein Modell, das Sprache ernst nimmt und in langen Formen gut tragen kann. Schon in den Cultural-Intelligence-Protokollen zeigt sich, dass claude-sonnet-4-6 germanistische Feinheiten nicht nur erkennt, sondern meist auch sauber verarbeitet. Es entgiftet toxische Formulierungen, glättet Gender-Schieflagen und hält den Ton professionell. Wo es leicht danebenliegt, sind es eher Nuancen. Der Judge kritisiert etwa den Tausch von „Eigeninitiative“ zu „Einsatzbereitschaft“ und das Hinzufügen eines inklusiven Nachsatzes, der gut gemeint ist, aber die Vorlage unnötig verlängert. Das ist typisch claude-sonnet-4-6: sprachlich kultiviert, manchmal einen Tick zu eifrig, wenn die Aufgabe eigentlich schon gelöst war.

Für Dokumentation ist das oft eine Stärke. Das Modell erklärt geordnet, vollständig und mit gutem Spannungsverhältnis zwischen Fachsprache und Lesbarkeit. Aber die gleiche Tugend wird in engen Formaten schnell zur Last. In UX-Microcopy, Hilfetexten oder streng begrenzten Textcontainern will man keine ausgeformte Mini-Essayistik. Man will präzise Kontrolle. claude-sonnet-4-6 hat diese Kontrolle nicht immer. Es ist ein Modell, das lieber einmal zu viel differenziert als einmal zu früh stoppt. Das wirkt menschlich. In Interfaces ist es manchmal schlicht zu viel Mensch.

Cultural Intelligence: auffallend sicher für einen Generalisten

Mit 82.3 Punkten gehört Cultural Intelligence zu den erfreulich starken Bereichen. Das Modell hält die deutsche Zielsprache sauber, vermeidet Sprachmischung und wirkt in Umschreibungen professionell, inklusiv und idiomatisch. Die Protokolle zeigen keine groben kulturellen Missgriffe, sondern allenfalls leichte Abweichungen in Nuance und Kompaktheit. Das ist ein gutes Zeichen. Viele Modelle können Deutsch. Weniger Modelle können brauchbares, kontextsensibles Deutsch unter redaktionellem Druck.

claude-sonnet-4-6 wirkt hier wie jemand, der die Aufgabe nicht nur übersetzt, sondern sozial versteht. Das macht es für HR-nahe Texte, interne Kommunikation und kundennahe Umschreibungen wertvoll. Nur muss man ihm gelegentlich sagen, dass Tugend nicht automatisch Zusatzsatz bedeutet.

CLI und praktische Exekution: ordentlich, aber nicht asketisch

Der CLI-Score von 82.78 ist hoch genug, um das Modell auch für technische Arbeitsabläufe ernst zu nehmen. Zugleich zeigt der Token-Overhead von 4.9 im Vergleich zum Fleet-Median, dass es in solchen Aufgaben zum Erklären neigt, wo manche Nutzer einfach nur den Befehl wollen. Das ist der Unterschied zwischen einem Kollegen, der hilfreich ist, und einem Kollegen, der beim Schraubenzieher erst noch die Geschichte der Schraube erzählt.

Für interaktive Terminal-Unterstützung ist das oft noch in Ordnung, gerade wenn ein Nutzer nachvollziehen will, was ein Kommando tut. In automatisierten oder halbautomatisierten Pipelines ist jeder überflüssige Satz jedoch Ballast. claude-sonnet-4-6 eignet sich damit eher als technischer Copilot mit Kommentarspur als als minimalistische Befehlsschleuder.

Datenschutz und Datenhoheit

Für europäische Unternehmen ist die Datenschutzlage klar, aber nicht ideal. Der Provider ist Anthropic PBC mit Sitz in San Francisco; anwendbar ist US-Recht einschließlich CLOUD Act. Das bedeutet konkret: US-Behörden können unter bestimmten Voraussetzungen Zugriff auf verarbeitete Daten verlangen, auch wenn diese für europäische Kunden bestimmt sind. Die Datenresidenz liegt laut Provider Card in den USA, die Datenspeicherung beträgt 30 Tage.

Positiv ist, dass ein GDPR-DPA verfügbar ist. Für Unternehmen, die DSGVO-konform arbeiten müssen, ist das keine Kür, sondern Mindestvoraussetzung. Es erleichtert den rechtssicheren Einsatz, beseitigt aber nicht das Grundproblem der US-Jurisdiktion. Das berechnete Sovereign Risk liegt folgerichtig bei MEDIUM. Das Weights-Provenienz-Risiko ist ebenfalls medium, mit derselben Begründung: US-Unternehmen, CLOUD-Act-Unterwerfung, keine öffentlich zugänglichen Gewichte. Für viele Teams ist das akzeptabel. Für hochsensible Datenräume, öffentliche Verwaltung oder streng souveränitätsgetriebene Umgebungen ist es ein echter Einwand, kein bloßer Fußnotenstoff.

Fazit

claude-sonnet-4-6 ist ein sehr starkes kommerzielles Cloud-Modell mit klar erkennbarem Charakter. Es kombiniert breite Kompetenz, gutes deutsches Sprachgefühl, starke Sicherheits- und Code-Analysen sowie solide Logikleistung zu einem Paket, das im Arbeitsalltag oft mehr nützt als spektakuläre Spezialisten. Seine Schwäche ist nicht Dummheit, sondern Disziplin. Es schreibt gern etwas mehr, denkt gern etwas breiter und reißt dabei in engen Formaten zuweilen Wortlimits. Wer ein Modell für hochwertige Assistenz, Textarbeit, technische Analyse, Dokumentation und anspruchsvollere Generalisten-Aufgaben sucht, bekommt hier ein ernstzunehmendes Werkzeug. Wer absolute Formatstrenge, maximale Kosteneffizienz oder knallharte Security-Priorisierung ohne menschliches Review braucht, sollte die Zügel kurz halten. Über alle Tests hinweg keine nennenswerten Halluzinationen. Das ist vielleicht die beste Nachricht dieses Berichts: claude-sonnet-4-6 wirkt nicht wie ein Blender, sondern wie ein intelligenter Kollege, der manchmal zu ausführlich antwortet, aber selten Unsinn mit Überzeugung verkauft.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.