Claude Sonnet 4.5 · LLM Model Review

Mit einem Gesamtscore von 78,27 % tritt claude-sonnet-4-5 als kommerzielles Cloud-Modell sehr klar als das auf, was seine Metadaten versprechen: ein dichter Frontier-Generalist mit optionalem Extended Thinking, das im Benchmark bewusst nicht aktiviert wurde. Der Speed-Profile-Badge Interactive DevOps Expert passt erstaunlich gut: Dieses Modell ist schnell genug für den Dialog, stark genug für anspruchsvolle Arbeitsaufgaben und meist klug genug, sich nicht mit billigen Fehlern zu blamieren. Es schreibt selten dummes Zeug, aber es ist auch nicht frei von Eigenwillen. Sovereign Risk: MEDIUM — Anthropic unterliegt als US-Unternehmen dem CLOUD Act; Daten werden ausschließlich in den USA verarbeitet.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	59.45 s	Akzeptabel	Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar.

Die Stabilitätsnote ist für ein proprietäres Frontier-API-Modell mehr als nur ein Hygiene-Faktor. Sie ist ein Vertrauenssignal. 43 von 43 Tasks ohne Timeout heißt in der Praxis: keine sichtbaren API-Aussetzer, keine peinlichen Hänger, keine Agenten-Pipeline, die nachts an irgendeinem stillen Netzwerkgrab verendet. Die Kehrseite ist der Tail: In fünf Prozent aller Anfragen wartet der Nutzer fast eine Minute. Das ist noch tragbar, aber nicht mehr elegant.

Die reine Generierungsgeschwindigkeit von 40,65 Tokens pro Sekunde unterstreicht das Bild. Das ist nicht spektakulär schnell, aber für ein Frontier-Modell dieser Klasse sehr ordentlich. Der Badge Interactive DevOps Expert signalisiert genau diesen Charakter: kein Sprintstar für ultrakurze Massenanfragen, sondern ein Modell, das im Dialogbetrieb, bei technischen Analysen und in iterativen Workflows seine Stärken ausspielen soll. Dass claude-sonnet-4-5 als Thinking-Optional-Modell grundsätzlich einen erweiterten Denkmodus per API beherrscht, im Benchmark aber im Standardmodus lief, ist wichtig. Die gemessene Latenz zeigt also das Verhalten, das ein normaler API-Nutzer tatsächlich bekommt, nicht die aufpolierte Demo-Konfiguration.

Architektur und Erwartungshaltung

Die redaktionelle Einordnung ist hier nicht Dekoration, sondern Maßstab. claude-sonnet-4-5 ist ein Generalist, gehört zur Frontier-Klasse und basiert auf einer Dense-Architektur. Das heißt: keine Spezialentschuldigung, kein Parametertrick per Expertensystem, kein Nischenfokus. Wer in dieser Klasse antritt, wird über die gesamte Breite gemessen. Genau dort liegt auch der Charakter dieses Modells.

Als Generalist muss es Code, Sprache, Struktur, Logik und kulturbezogene Nuancen gleichzeitig beherrschen. Als Frontier-Modell muss es dabei nicht nur brauchbar, sondern verlässlich stark sein. Und als dichtes Modell trägt es die volle Kapazität bei jeder Anfrage mit sich herum. Die Erwartung ist deshalb hoch: kein Geniestreich in einem Modul bei gleichzeitiger Schlamperei im nächsten. claude-sonnet-4-5 erfüllt diesen Anspruch erstaunlich oft. Es wirkt wie ein sehr gut ausgebildeter Redakteur mit Sicherheitszertifikat. Nur hört er gelegentlich auf die falsche Sprachansage.

Code Quality und Security: sehr stark, aber nicht bis zur letzten Eskalationsstufe

Im Security-nahen Code-Bereich spielt claude-sonnet-4-5 seine auffälligste Stärke aus. Der Code-Quality-Audit-Wert von 87,0 ist kein Zufallsprodukt. In den Protokollen identifiziert das Modell nicht nur die offensichtlichen Lücken, sondern auch implizite Schwachstellen sauber und mit technischer Souveränität. Im exemplarischen PHP-Sicherheitsaudit erkennt es alle 19 Referenzlücken korrekt, ergänzt sogar zwei zusätzliche valide Probleme und liefert brauchbare Fixes wie mysqli_prepare(), password_hash() oder htmlspecialchars(). Das ist keine Blender-Performance. Das Modell sieht die Angriffsfläche.

Besonders stark ist die Trefferquote bei klassischen Sicherheitsmustern: SQL-Injection, IDOR, CSRF, Session Fixation, schwache Reset-Tokens, unsichere Cookies, Hardcoded Secrets. Das ist die Art von Arbeit, bei der viele Modelle entweder an der Oberfläche kleben bleiben oder die Schweregrade durcheinanderwerfen. claude-sonnet-4-5 tut beides nicht. Es argumentiert in sauberem Deutsch, strukturiert die Befunde ordentlich und bleibt fachlich auf Kurs.

Aber: Es ist nicht die Endstufe eines Security-Reviewers. Der Judge moniert zu Recht, dass die Tabellenbegründungen oft zu knapp ausfallen. Das Modell sagt, dass etwas unsicher ist, aber nicht immer mit der nötigen Anschaulichkeit, warum es konkret ausnutzbar ist. Noch wichtiger: Es fehlt in dem Audit-Beispiel eine zusammenhängende Angriffskette, also die Synthese mehrerer Lücken zu einem realistischen Kompromittierungspfad. Genau dort trennt sich ein sehr guter Scanner von einem echten Analysten. claude-sonnet-4-5 liefert die Teile. Die forensische Dramaturgie baut es nicht immer fertig.

Für die Praxis heißt das: hervorragend für Erstanalysen, Triage, strukturierte Sicherheitslisten und solide Sanierungshinweise. Wer einen belastbaren Exploit-Narrativ oder eine priorisierte Kill-Chain für Management und Incident-Team braucht, muss meist noch selbst nachschärfen.

CLI und technische Exekution: überraschend präzise für einen Allrounder

Der CLI-Wert von 88,89 bestätigt, was der Speed-Badge schon andeutet: Dieses Modell ist im technischen Arbeitsmodus zuhause. Es versteht operative Aufgaben, produziert brauchbare Befehlslogik und hält sich in der Regel an geforderte Struktur. Für einen Generalisten ist das bemerkenswert. Viele Allround-Modelle schreiben über Technik gern klüger, als sie tatsächlich handeln. claude-sonnet-4-5 wirkt hier deutlich bodenständiger.

Das heißt nicht, dass es ein spezialisiertes Shell-Mikroskalpell wäre. Aber es liefert die Art von Antworten, die in DevOps- oder Sysadmin-Kontexten nicht sofort nach Handbuchprosa riechen. Der „Interactive“-Teil des Badges ist entscheidend: Das Modell eignet sich eher für das dialogische Abarbeiten technischer Aufgaben als für stumpfe Hochdurchsatz-Automation. Es antwortet mit Substanz, nicht mit Maschinengewehrtempo.

Reasoning und Logik: zuverlässig klug, nicht maximal tief

Im Logical-Reasoning-Modul erreicht claude-sonnet-4-5 70,11. Das ist stark, aber nicht überragend. Die qualitativen Protokolle zeigen warum. In der Wächter-und-Türen-Aufgabe ist die Kernlösung korrekt, sauber erklärt und sogar um einen zweiten gültigen Ansatz ergänzt. Das Modell denkt also nicht nur richtig, sondern auch flexibel. Es bleibt nachvollziehbar, strukturiert und in deutscher Sprache diszipliniert.

Was fehlt, ist die letzte didaktische Tiefe. Der Judge lobt die Lösung, bemängelt aber, dass das Modell das zugrunde liegende Prinzip der Doppelinversion nicht explizit genug herausarbeitet. Genau das ist der Unterschied zwischen „hat das Rätsel gelöst“ und „hat das Prinzip so erklärt, dass der Leser künftig ähnliche Rätsel selbst erkennt“. claude-sonnet-4-5 ist hier ein guter Problemlöser, aber kein brillanter Mathematiklehrer.

Das passt zur Kategorie Thinking-Optional. Der Benchmark hat den erweiterten Denkmodus nicht aktiviert. Entsprechend zeigt das Modell im Standardmodus eine robuste, alltagstaugliche Denkqualität, aber nicht die maximale analytische Tiefenbohrung, die möglicherweise mit mehr internem Reasoning erreichbar wäre. Das ist kein Makel des Benchmarks, sondern genau sein Sinn: gemessen wurde das Modell so, wie es ohne Spezialkonfiguration beim typischen API-Einsatz reagiert.

UX Writing und Microcopy: kompetent, aber nicht federleicht

Mit 73,29 im UX-Writing landet claude-sonnet-4-5 in einem Bereich, den man guten Gewissens als professionell bezeichnen kann. Die Auszüge deuten auf ein Modell hin, das Strukturvorgaben ernst nimmt, Tabellen korrekt aufsetzt und progressive Offenlegung beherrscht, also Informationen schrittweise statt überfallartig präsentiert. Das ist für Produkttexte, Hilfemeldungen und UI-nahe Kommunikation Gold wert.

Trotzdem bleibt ein leichter Schatten: Der Judge verweist auf fehlende quantitative Strenge und Messdisziplin im Vergleich zu einer Expert-Level-Lösung. Das ist typisch für viele starke Sprachmodelle. Sie formulieren ordentlich, plausibel und benutzerfreundlich, aber nicht immer mit der chirurgischen Präzision, die bei UX-Arbeit mit echten Conversion-Zielen oder Fehlerraten gefragt ist. Anders gesagt: claude-sonnet-4-5 schreibt in diesem Bereich eher wie ein guter Senior-Writer als wie ein kompromissloser Experimentdesigner.

Dokumentation: stark in Struktur, mit einem peinlichen Sprachpatzer

Die Documentation-Quality-Note von 78,72 ist auf den ersten Blick überzeugend. Dazu passt auch das Tokenprofil: Das Modell investiert hier viel Text und in der Regel mit erkennbarem Nutzen. Es neigt zu ausführlichen, sorgfältig abgewogenen Antworten. Bei Dokumentation ist das oft kein Fehler, sondern eine Tugend.

Gerade deshalb fällt der dokumentierte Sprachfehler umso unangenehmer auf. In einer Aufgabe im Documentation-Bereich antwortete das Modell trotz expliziter Deutschvorgabe auf Englisch. Das ist kein stilistischer Schönheitsfehler, sondern ein harter Instruction-Following-Bruch. Das Modell ignorierte die explizite Sprachanweisung und antwortete auf Englisch. In produktiven Umgebungen mit fester Zielsprache ist so etwas ein direktes Einsatzrisiko, weil die Antwort inhaltlich noch so gut sein kann und trotzdem am Bedarf vorbeigeht.

Hier greift zudem ein automatischer Hard-Constraint-Abzug. In einer Aufgabe im Documentation-Bereich verletzte das Modell die explizite Sprachvorgabe Deutsch. Das System verhängte dafür einen regelbasierten Abzug wegen Language Mismatch. Die inhaltliche Qualität der Antwort wird dadurch zweitrangig, weil die Strafe unabhängig vom semantischen Gehalt greift. Genau das ist richtig so: Wer deutsche Dokumentation bestellt, will keine brillante englische Ersatzlieferung.

Dieser Fehler steht nicht isoliert im Raum. Zusammen mit dem identischen Vorfall im Content-Bereich zeigt sich ein strukturelles Muster: Bei simultanen Vorgaben aus Sprache, Format und inhaltlicher Komplexität verliert claude-sonnet-4-5 mitunter die Sprachvorgabe als erste Bedingung. Das ist keine Katastrophe, aber für ein Frontier-Modell auch kein Kavaliersdelikt.

Content Transformation: starkes Handwerk, dann falsche Sprache

Im Modul Content Transformation & Adaption erreicht claude-sonnet-4-5 74,3. Das Urteil aus dem Protokoll ist fast schon frustrierend positiv: Das Modell liefert ein produktionstaugliches YouTube-Skript, inklusive Zeitmarken, visueller Cues, Engagement-Hooks, CTA und Easter Egg. Der Aufbau stimmt, das Timing stimmt, die Dramaturgie funktioniert. Kurz gesagt: handwerklich sitzt die Antwort.

Und dann kippt alles an der einfachsten Hürde. Das Modell beantwortet die deutsche Aufgabe vollständig auf Englisch. Der Judge nennt das zu Recht einen fundamentalen Compliance-Fehler, keinen Qualitätsfehler. Genau darin liegt die Bitterkeit dieses Befunds. Das Modell scheitert nicht, weil es das Format nicht kann. Es scheitert, weil es eine primäre Anweisung ignoriert.

Auch hier gilt: Das ist kein bloßer Schönheitsmakel, sondern ein Non-Success-Befund. Das Modell ignorierte die explizite Sprachanweisung und antwortete auf Englisch. Für produktive Content-Pipelines mit definierter Ausgabesprache ist das ein klares Risiko. Es hilft wenig, wenn der Filmtext sendefähig ist, aber im falschen Idiom ankommt.

Zusätzlich griff ein automatischer Hard-Constraint-Abzug. In einer Aufgabe im Content-Transformation-Bereich verletzte das Modell die explizite Sprachvorgabe Deutsch. Das System verhängte dafür einen regelbasierten Abzug wegen Language Mismatch. Die Antwort kann handwerklich stark sein, doch der Score wird unabhängig davon gedrückt. Genau so muss ein brauchbarer Benchmark funktionieren. Wer eine deutsche Fassung bestellt, bekommt für eine englische Version keinen Trostpreis.

Cultural Intelligence: sauber, höflich, kulturell meist treffsicher

Mit 80,3 liefert claude-sonnet-4-5 im Bereich Cultural Intelligence eine der rundesten Leistungen des Benchmarks. Das Modell entfernt toxische Begriffe sauber, formuliert in idiomatischem Deutsch und korrigiert genderbezogene Schieflagen ohne moralische Selbstinszenierung. Das ist ein nicht zu unterschätzender Punkt. Viele Modelle verwechseln kulturelle Sensibilität mit sprachlicher Watte. claude-sonnet-4-5 bleibt überwiegend professionell und lesbar.

Im vorliegenden Beispiel zur Entgiftung einer Stellenanzeige arbeitet das Modell zuverlässig: aggressive Metaphern werden neutralisiert, die Tonlage wird HR-tauglich, das Ergebnis bleibt funktional. Die einzige erkennbare Schwäche liegt in der kulturellen Feinausrichtung. Der Judge merkt an, dass explizitere inklusive Schreibweisen und ein etwas weicherer deutscher HR-Ton noch passender gewesen wären. Das ist kein grober Schnitzer, eher der Unterschied zwischen „sauber gelöst“ und „mit lokalem Fingerspitzengefühl poliert“.

API-Kostenprofil

Weil claude-sonnet-4-5 ein kommerzielles Cloud-Modell ist, darf man seine Ausführlichkeit nicht romantisieren. Tokens kosten Geld. Und dieses Modell ist in mehreren Modulen merklich redseliger als der Flottenschnitt.

Besonders auffällig ist Documentation Quality: durchschnittlich 4330 Tokens bei einem Fleet-Median von 2253. Das entspricht dem 1,92-Fachen des Schnitts aller getesteten Modelle. Auch Code Quality fällt ins Gewicht: 3298 Tokens gegenüber 1899 im Median, also 1,74×. Das ist nicht automatisch schlecht, solange die Qualität stimmt. Aber im API-Alltag bedeutet es schlichte Mathematik: mehr Text, mehr Kosten, mehr Latenz.

Die Preisstruktur macht das relevant. Laut Model Card verlangt Anthropic 3,0 US-Dollar pro 1 Million Input-Tokens und 15,0 US-Dollar pro 1 Million Output-Tokens. Bei einem Modell, das in Dokumentation und Code-Analyse sichtbar über dem Median spricht, ist das keine Nebensache. claude-sonnet-4-5 schreibt oft gut. Es schreibt aber auch gern mehr, als der ökonomische Minimalist bestellen würde.

Preis, Tempo und Nutzwert

Der rechnerische Benchmark-Kostensatz von 0,015 US-Dollar pro 1K Tokens und 0,9893 US-Dollar pro Benchmark-Durchlauf positioniert claude-sonnet-4-5 nicht als Billigmodell, aber als relativ vernünftiges Frontier-Angebot. Für das, was es an Breite, Stabilität und technischer Qualität liefert, ist der Preis nicht absurd. Er ist nur eben nicht klein. Wer hohe Volumina durch Dokumentations- oder Audit-Workloads jagt, spürt die Verbosität in der Rechnung.

Das Verhältnis aus Preis, Tempo und Zuverlässigkeit ist dennoch gelungen. Kein Timeout, akzeptabler Tail, 40,65 Tokens pro Sekunde, saubere technische Kompetenz. Das ist ein Paket, mit dem Teams tatsächlich arbeiten können. Es ist kein Modell für Massenware zum Schleuderpreis. Es ist ein Werkzeug für Nutzer, die bei technischem Schreib- und Denkaufwand weniger Roulette und mehr Verlässlichkeit wollen.

Datenschutz und Datenhoheit

Für europäische Unternehmen ist die Lage klar und nicht wegzudiskutieren. Anthropic ist ein US-Unternehmen mit Sitz in San Francisco. Es gilt US-Recht inklusive CLOUD Act, und laut Provider Card werden Daten in den USA verarbeitet. Der Anbieter nennt eine Datenspeicherung von 30 Tagen. Ein GDPR-DPA ist verfügbar, was für DSGVO-pflichtige Unternehmen ein notwendiger, aber nicht hinreichender Baustein ist.

Das berechnete Sovereign Risk liegt bei MEDIUM. Die Begründung ist sachlich: proprietäre, nicht öffentlich zugängliche Gewichte bei einem US-Anbieter unter CLOUD-Act-Jurisdiktion. Für deutsche und europäische Nutzer heißt das: vertraglich lässt sich einiges absichern, vollständig souverän wird dieses Setup dadurch nicht. CLOUD Act bedeutet, dass US-Behörden unter bestimmten Voraussetzungen Zugriff auf Daten verlangen können, auch wenn ein Unternehmen in Europa sitzt. Wer mit sensiblen personenbezogenen Daten, Geheimhaltungsstufen oder strikter Datenresidenz arbeitet, sollte das nicht als Fußnote behandeln.

Fazit

claude-sonnet-4-5 ist ein sehr starkes kommerzielles Cloud-Modell mit klar erkennbarem Arbeitscharakter. Es kombiniert robuste Logik, hervorragende Security- und Code-Analysen, solide UX- und Dokumentationsfähigkeiten und eine für Frontier-Verhältnisse überzeugende API-Stabilität. Seine größte Stärke ist nicht Brillanz um jeden Preis, sondern kontrollierte Kompetenz. Dieses Modell wirkt selten genial. Dafür wirkt es oft belastbar. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber nichts, als sich zu blamieren.

Seine größte Schwäche ist ebenso klar: die Sprachinstruktions-Compliance unter Mehrfachvorgaben. Zwei dokumentierte Englisch-Antworten trotz expliziter Deutschvorgabe sind für ein Modell dieser Klasse zu viel, um sie als Laune abzutun. Wer es in deutschsprachige Publishing-, Support- oder Content-Workflows hängt, sollte eine Sprachvalidierung oder einen einfachen Guardrail davorsetzen. Das ist kein akademischer Makel, sondern ein realer Produktionsfehler.

Die Empfehlung fällt deshalb differenziert aus. Für Code-Reviews, Security-Triage, technische Analysen, CLI-nahe Assistenz und anspruchsvolle Generalisten-Aufgaben ist claude-sonnet-4-5 eine ausgezeichnete Wahl. Für sprachkritische, streng lokalisierte Ausgabeprozesse ist es erst dann wirklich produktionsreif, wenn man die Zielsprache programmgesteuert absichert. Wer damit leben kann, bekommt ein Modell mit Substanz. Wer blind auf jede Sprachvorgabe vertraut, bekommt gelegentlich eine sehr gute Antwort auf die falsche Frage.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.