LLM Model Review
· General · Coder
Mit einem Gesamtscore von 73,26 % zeigt DeepSeek V3.2 das klassische Profil eines Frontier-Modells mit doppelter Seele: als Generalist breit genug für den Alltag, als Coder scharf genug für ernsthafte technische Arbeit. Die editoriale Einordnung passt erstaunlich gut. Inhaltlich ist das Modell oft stark, ökonomisch mit Tokens und für ein MoE-System mit 671 Milliarden Gesamtparametern bei 37 Milliarden aktiven Parametern effizient kalibriert. Praktisch fällt es aber über etwas viel Banaleres: Zuverlässigkeit. Der Speed-Profile-Badge lautet „Unusable Tool Expert“, und das ist keine Polemik, sondern eine Warnleuchte. DeepSeek V3.2 lief hier als Cloud Open-Weights-Modell via DeepSeek; die gemessenen 9,95 Tokens/s sind deshalb vor allem ein Befund über den Cloud-Endpunkt und seine Infrastruktur, nicht über das nackte Modellgewicht. Sovereign Risk: HIGH — Anbieter und Modellherkunft liegen in China, verarbeitet wird laut Provider-Angaben in China und unter chinesischem Recht mit weitreichenden staatlichen Zugriffsrechten.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 26/43 | Nicht einsetzbar | Das Modell zeigt katastrophale Instabilität und ist für einen unbeaufsichtigten Produktiveinsatz völlig ungeeignet. |
| P95-Antwortzeit | 526.02 s | Kritisch | Extreme Tail-Latenz. Das Modell streut massiv und ist für zeitkritische Prozesse ungeeignet. |
Diese beiden Zahlen dominieren jede Gesamtbewertung. 26 Timeouts in 43 Läufen sind für ein Cloud Open-Weights-Modell kein Schönheitsfehler, sondern ein direktes Reliability-Risiko auf API-Ebene. Wer DeepSeek V3.2 in Agenten-Workflows, Build-Pipelines oder redaktionelle Ketten hängen will, muss mit Retrys, Abbrüchen und blockierten Prozessen rechnen. Und die P95-Antwortzeit von 526,02 Sekunden heißt übersetzt: In fünf Prozent aller Anfragen wartet der Nutzer fast neun Minuten. Das ist kein interaktives System mehr. Das ist Warten mit offenem Browser-Tab und schwindendem Vertrauen.
Architektur und Charakter: Generalist mit Code-Rückgrat
DeepSeek V3.2 ist laut kuratierter Einordnung ein Generalist in der Frontier-Klasse mit Mixture-of-Experts-Architektur. Dieser Punkt ist wichtig, weil die 671 Milliarden Gesamtparameter schnell eine falsche Erwartung erzeugen. Für die reale Leistung sind hier die 37 Milliarden aktiven Parameter entscheidend. Das Modell arbeitet also nicht mit der rohen Wucht eines voll aktiven Monolithen, sondern mit selektiv zugeschalteten Spezialisten. Genau das spürt man auch im Benchmark: viel Struktur, gute Fachschärfe, oft präzise Problemerkennung, aber nicht immer die letzte Breite in Synthese und redaktioneller Vollendung.
Als Kombination aus General und Coder ist DeepSeek V3.2 am stärksten, wenn die Aufgabe ein technisches Rückgrat hat. Es denkt in Komponenten, Kategorien, Fixes und Zuständen. Sobald Wärme, kulturelle Feinabstimmung oder streng simultane Vorgaben aus Sprache, Länge und Format dazukommen, wird es nicht unbrauchbar, aber sichtbar fragiler. Das ist kein Skandal. Es ist der Charakter dieses Modells.
Performance und Kostenprofil
Der Speed-Profile-Badge „Unusable Tool Expert“ klingt hart, trifft den Alltagseindruck aber präzise. Inhaltlich kann DeepSeek V3.2 in Tool-, Code- und Strukturaufgaben durchaus Expertenniveau ankratzen. Operativ scheitert dieser Anspruch an der Servicegüte. Ein Werkzeugexperte, der in entscheidenden Momenten nicht auftaucht, ist eben keiner.
Die gemessenen 9,95 Tokens pro Sekunde sind für einen Cloud-Dienst in dieser Klasse langsam. Gerade weil das Modell als Open-Weights-Angebot via DeepSeek läuft, ist das keine akademische Zahl. Sie beschreibt das Nutzungserlebnis des Anbieters. Noch schwerer wiegt, dass die Token-Ökonomie selbst sauber bleibt: Das Modell verhält sich token-ökonomisch, kein Modul überschreitet den erwarteten Verbosity-Rahmen. Reasoning liegt mit durchschnittlich 510 Tokens sogar klar unter dem Fleet-Median von 846, im CLI-Bereich verbraucht es nur 98 statt 204 Tokens, bei Code Quality 1501 statt 1989. Mit anderen Worten: DeepSeek V3.2 redet nicht zu viel. Es kommt nur oft zu spät oder gar nicht. Das ist fast ärgerlicher.
Positiv ist der Preis. Mit 0,14 Dollar pro Million Input-Tokens und 0,28 Dollar pro Million Output-Tokens gehört DeepSeek V3.2 zu den günstigen Frontier-Angeboten. Der Benchmark-Kostenwert von 0,0108 Dollar ist auffällig niedrig. Wer nur auf die Rechnung schaut, sieht ein Schnäppchen. Wer auf Durchsatz und Fehlerrisiko schaut, sieht die versteckte Folgekostenstelle.
Code Quality und Security: stark im Raster, schwächer in der Synthese
Im Code-Quality-Audit erreicht DeepSeek V3.2 76,1 %. Das ist ein gutes Ergebnis und trifft den Kern seines Coder-Tags. Im qualitativen Protokoll liefert das Modell eine sauber formatierte Markdown-Tabelle mit 20 Schwachstellen, nahezu auf Augenhöhe mit dem Referenzumfang. Kritische Punkte wie SQL Injection, Path Traversal, Type Juggling, IDOR, unsichere Cookies oder schwache Token-Generierung werden erkannt, kategorisiert und mit praktikablen Fixes versehen. Solche Antworten lesen sich nicht wie blindes Pattern-Matching, sondern wie ein Modell, das den Werkzeugkasten der AppSec halbwegs sortiert im Kopf hat.
Der Haken liegt in der zweiten Etage. DeepSeek V3.2 erkennt Schwachstellen gut, aber es erzählt zu selten die Geschichte des Risikos. Es fehlt die Angriffskette, also die Synthese mehrerer Einzelfunde zu einem realistischen Kompromittierungsweg. Genau dort trennt sich eine brauchbare Checkliste von einem belastbaren Audit. Im Protokoll wird das sehr klar: Das Modell benennt etwa IDOR, erläutert aber nicht scharf genug die Kette bis zur möglichen Admin-Übernahme. Auch bei Header Injection, Session Fixation oder hartkodierten Geheimnissen bleibt es stellenweise auf der Ebene „Problem plus Fix“, wo ein wirklich starkes Security-Modell schon den Exploit-Pfad und die Priorisierung mitliefert.
Das Ergebnis ist fachlich respektabel, aber nicht vollständig souverän. DeepSeek V3.2 ist in Security-Fragen eher ein guter Pentest-Assistent als ein virtueller Lead-Auditor. Für Entwicklerteams ist das oft genug. Für formelle Sicherheitsbewertungen nicht.
CLI und operative Technik: präzise, knapp, nützlich
Im CLI-Benchmark liegt DeepSeek V3.2 bei 81,12 %. Das ist kein Zufallstreffer, sondern die logische Verlängerung seines technischen Charakters. Das Modell formuliert knapp, hält sich an Struktur, vermeidet ausufernde Erklärblöcke und arbeitet mit einem niedrigen Tokenverbrauch. Für Shell-nahe Aufgaben, kurze Abläufe und technische Direktiven ist das ein klarer Pluspunkt.
Gerade hier zeigt sich die Stärke eines Code-orientierten Generalisten: Es muss nicht glänzen, es muss treffen. DeepSeek V3.2 trifft oft. Nur nützt die beste One-Liner-Kompetenz wenig, wenn der Endpunkt selbst mit dramatischer Tail-Latenz streut. Das Modell ist also nicht an seiner technischen Ausdrucksfähigkeit zu messen, sondern an der Frage, ob seine Cloud-Auslieferung diese Fähigkeit auch verlässlich auf den Tisch bringt. Im Test lautet die ernüchternde Antwort zu oft: nein.
Reasoning und Logik: korrekt, aber ohne Gravitas
Im Modul Logical Reasoning kommt DeepSeek V3.2 auf 64,19 %. Das klingt durchschnittlicher, als die Qualitätsprotokolle vermuten lassen. In der vorliegenden Metakognitions-Aufgabe löst das Modell das klassische Wächterproblem korrekt, nutzt die geforderten <thought>-Tags, erklärt die Doppelverneinung sauber und bleibt dabei klar strukturiert. Genau diese Kombination ist wichtig: Es rechnet nicht nur richtig, sondern befolgt auch die Form.
Was fehlt, ist die letzte pädagogische Schärfe. Das Protokoll moniert zu Recht die fehlende Verifikationstabelle, eine weniger gründliche Aufschlüsselung des Mechanismus und eine zu knappe Behandlung alternativer Fragen. DeepSeek V3.2 ist hier also nicht schwach, sondern nüchtern. Es kommt zur richtigen Lösung, ohne daraus ein Lehrstück zu machen. Für den Alltag kann das völlig genügen. Wer von einem Frontier-Modell jedoch nicht nur korrekte Antworten, sondern auch didaktische Exzellenz erwartet, bekommt hier mehr Ingenieur als Tutor.
Dazu kommt die operative Seite: Schon im Reasoning-Modul häufen sich die Aussetzer. Drei Timeouts in fünf Läufen sind für Logikaufgaben fatal, weil gerade dort Nutzer eher bereit sind, auf Qualität zu warten, nicht aber auf einen Totalausfall.
Documentation Quality: sauber, sachlich, etwas mechanisch
Mit 72,27 % in Documentation Quality zeigt DeepSeek V3.2 eine der angenehmeren Seiten seines Generalist-Profils. Die Antworten sind in der Regel geordnet, verständlich und ausreichend ausführlich. Der Tokenverbrauch liegt mit 2374 nur minimal über dem Fleet-Median von 2272, also kein ausuferndes Gerede, sondern kontrollierte Länge.
Das Muster ist vertraut: gute Struktur, brauchbare Präzision, aber nicht immer die redaktionelle Eleganz, die aus solider Dokumentation wirklich gute Dokumentation macht. DeepSeek V3.2 schreibt eher wie ein disziplinierter technischer Redakteur unter Zeitdruck als wie ein Autor mit Sinn für Leserführung. Für Wissensdatenbanken, interne Dokus und technische Erklärtexte reicht das oft locker. Für Texte, die Nutzer nicht nur informieren, sondern mitnehmen sollen, fehlt etwas Geschmeidigkeit.
UX Writing: brauchbare Mikrostruktur, operative Katastrophe
Im UX-Writing-Modul erreicht DeepSeek V3.2 67,75 %. Einzelne qualitative Signale sind durchaus positiv. Das Modell beherrscht kurze Schritte, progressive Offenlegung und eine korrekte Spaltenstruktur. Es kann also Informationshäppchen sauber portionieren, was für Onboarding-Flows, Settings-Hinweise oder Hilfe-Dialoge elementar ist.
Der Gesamtbefund wird trotzdem von der Infrastruktur erschlagen. Die Modul-Metriken zeigen 4 Timeouts in 5 Läufen. Das ist nicht einfach „langsam“, das ist faktisch nicht benutzbar. Gerade UX-Text entsteht oft in iterativen Mikrozyklen. Ein Modell, das dort regelmäßig wegbricht, verfehlt den eigentlichen Einsatzzweck, selbst wenn die wenigen sichtbaren Antworten formal gut ausfallen. Man kann keine gute Produktkommunikation auf einen Dienst stützen, der sich verhält wie ein Textbaustein-Generator mit Kreislaufproblemen.
Content Transformation: gute Dramaturgie, schlechte Disziplin
Im Modul Content Transformation & Adaption kommt DeepSeek V3.2 auf 74,14 %. Das Ergebnis wirkt auf den ersten Blick stark, und inhaltlich gibt es dafür gute Gründe. Im Video-Script-Test liefert das Modell eine klar gegliederte Dramaturgie, sinnvolle Timestamps, brauchbare Produktionshinweise, B-Roll-Cues, Musik-Signale, Retention-Elemente und einen funktionierenden Spannungsbogen. Das ist kein mechanischer Umbau von Text, sondern ein echtes Verständnis für formatgerechte Transformation.
Dann folgt allerdings der Bruch. In einer Aufgabe dieses Moduls überschritt das Modell die explizite Wortvorgabe von 900 Wörtern auf 1102 Wörter, also auf 122 % des Limits. Das System verhängte dafür einen automatischen Abzug von 17,20 Punkten beziehungsweise 20 % auf den erreichten Teilscore. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Zusätzlich ignorierte DeepSeek V3.2 in derselben Aufgabe die Sprachanweisung und antwortete auf Englisch, obwohl Deutsch gefordert war. Das ist kein Stilproblem, sondern ein glasklarer Compliance-Fehler.
Das Sprachversagen ist kein isolierter Ausreißer. Über mehrere Aufgaben im Content-Transformation-Bereich zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es die Sprachvorgabe als erste Bedingung. Gerade in einer Videoskript-Aufgabe ist das fatal, weil hier die Transformationsleistung hoch war, aber am falschen Ziel vorbeischrieb. Ein Modell, das handwerklich eine Bühne baut und dann im falschen Idiom auftritt, demonstriert Talent und Disziplinmangel zugleich.
Hinzu kommt die Praxisstabilität des Moduls: wiederholt sehr hohe Antwortzeiten und Timeouts. Das passt ins Gesamtbild. DeepSeek V3.2 kann hier viel, aber nicht zuverlässig und nicht immer regeltreu.
Cultural Intelligence: sprachlich stark, tonal etwas kühl
Im Bereich Cultural Intelligence erreicht DeepSeek V3.2 81,3 %. Das ist eines seiner überzeugenderen Resultate und zugleich ein gutes Beispiel dafür, wie man den Coder-Tag fair lesen sollte. Das Modell liefert korrektes, durchgehend deutsches Material, entfernt toxische Formulierungen zuverlässig und trifft inklusive Sprache in weiten Teilen. Im vorliegenden Protokoll wird die problematische Stellenbereinigung sauber erledigt, ohne Meta-Kommentar und ohne unnötige Ausflüge.
Die Abzüge kommen nicht aus groben Fehlgriffen, sondern aus Nuancen. Statt der elegantesten inklusiven Lösung wählt DeepSeek V3.2 eine funktionale. Statt psychologischer Wärme liefert es etwas förmliche Unternehmenssprache. Statt eines rund abgeschlossenen Jobad-Snippets fehlt der letzte freundliche Call to Action. Das ist nicht peinlich, nur ein wenig untertemperiert. Der Text ist professionell, aber nicht einladend. Man könnte sagen: korrekt entgiftet, nicht liebevoll neu aufgebaut.
Gerade hier zeigt sich, warum die Kombination General und Coder als Metadaten wichtig ist. Für ein primär technisches Modell ist das kulturelle Fingerspitzengefühl gut. Es wirkt nur nicht so organisch wie bei sprachlich feintrainierten Allroundern.
Datenschutz und Datenhoheit
Bei DeepSeek V3.2 ist die Datenschutzfrage kein Randaspekt, sondern Teil der Einsatzentscheidung. Der Provider sitzt in Hangzhou, China, verarbeitet Daten laut Card in China und unterliegt chinesischem Recht nach PIPL, CSL und DSL. Für Nutzer in Deutschland und der EU bedeutet das: Die Datenverarbeitung liegt außerhalb des europäischen Rechtsraums und unter einer Jurisdiktion, die staatliche Zugriffe deutlich weiter fasst, als viele Unternehmen akzeptieren können.
Das berechnete Sovereign Risk liegt bei HIGH. Die Begründung ist explizit: Modellherkunft und Provider fallen in denselben chinesischen Rechtsraum; zusätzlich wird auf das chinesische National Security Law verwiesen. Der Provider bietet kein GDPR-konformes DPA an. Für Unternehmen, die personenbezogene Daten DSGVO-konform verarbeiten müssen, ist das ein konkretes Compliance-Hindernis, kein theoretischer Makel. Die Datenspeicherung ist mit -1 Tagen angegeben, also faktisch nicht verlässlich spezifiziert. Der Datenstandort ist China. Das genügt für eine klare Empfehlung: Für sensible Unternehmensdaten, Kundendaten oder regulierte Inhalte ist dieser Cloud-Endpunkt aus europäischer Sicht hochproblematisch.
Fazit
DeepSeek V3.2 ist ein interessantes, teils beeindruckendes Frontier-Modell mit offenem Gewichtsmodell in der Cloud. Als Generalist mit starkem Code-Rückgrat, als Frontier-System und als MoE-Modell mit 37 Milliarden aktiven Parametern liefert es genau das, was diese Konfiguration verspricht: gute technische Struktur, starke Security- und CLI-Kompetenz, ordentliche Dokumentation, überraschend solide kulturelle Anpassung und insgesamt einen Benchmark-Score von 73,26 %. Über alle Tests hinweg keine nennenswerten Halluzinationen. Das Modell erfindet lieber wenig, als sich großspurig zu blamieren.
Und doch bleibt das Urteil schärfer als die Einzelscores vermuten lassen. DeepSeek V3.2 scheitert nicht an Intelligenz, sondern an Verlässlichkeit. 26 Timeouts bei 43 Tests und eine P95-Antwortzeit von 526,02 Sekunden sind für einen produktiven Cloud-Dienst verheerend. Dazu kommen klare Compliance-Schwächen bei simultanen Vorgaben, besonders in Content-Transformation mit Sprachwechsel nach Englisch und Wortlimit-Verstoß. Der Eindruck ist deshalb paradox: ein fachlich ernst zu nehmendes Modell, ausgeliefert über einen Endpunkt, dem man operative Verantwortung nur mit schlechtem Gewissen gibt.
Empfehlung: Für kostenbewusste, technische Einzelaufgaben mit Retry-Logik, Nachkontrolle und ohne sensible Daten kann DeepSeek V3.2 attraktiv sein. Für Security-Analysen, Code-Reviews, CLI-Hilfen und technische Rohfassungen ist es inhaltlich oft besser, als sein Preis vermuten lässt. Für zeitkritische Agenten, unbeaufsichtigte Automatisierung, redaktionelle Produktionsstraßen und DSGVO-sensible Unternehmensnutzung ist dieser konkrete Cloud-Einsatz derzeit keine gute Idee. DeepSeek V3.2 hat Substanz. Aber Substanz allein reicht nicht, wenn der Dienst drumherum sich benimmt wie ein Sportwagen mit Zündaussetzern.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.