LLM Model Review
Aktualisiert am · Thinking
Mit einem Gesamtscore von 73.19 % zeigt DeepSeek V4 Pro sehr klar, was ein reasoning-zentriertes Frontier-Modell mit MoE-Architektur kann und wo es sich im Alltag selbst ein Bein stellt. Als Cloud-Open-Weights-Modell via DeepSeek-API liefert es stellenweise die Ruhe und Präzision eines ernsthaften Analysten, aber auch die Wartezeiten und Ausfälle eines Endpunkts, der für unbeaufsichtigte Workflows schlicht zu nervös ist. Der Speed-Profile-Badge lautet Batch Tool Expert: Das ist kein Modell für den schnellen Zuruf, sondern für Aufgaben, bei denen man lieber auf Tiefe als auf Reaktionsfreude setzt. Sovereign Risk: HIGH — DeepSeek operiert unter chinesischer Jurisdiktion, verarbeitet Anfragen in China und bietet laut vorliegenden Daten kein öffentlich ausgewiesenes DSGVO-DPA.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 11/43 | Unzuverlässig | Das Modell ist unzuverlässig und bricht in der Praxis signifikant oft weg. Für ein Cloud Open-Weights-Modell ist das kein Schönheitsfehler, sondern ein direktes API-Risiko. |
| P95-Antwortzeit | 198.34 s | Kritisch | Extreme Tail-Latenz. Das Modell streut massiv und ist für zeitkritische Prozesse ungeeignet. In fünf Prozent aller Anfragen wartete der Nutzer über drei Minuten. |
Architektur und Charakter: Thinking mit MoE, also Tiefe unter Vorbehalt
DeepSeek V4 Pro ist als Reasoning / Deep Thinking eingestuft, gehört zur Frontier-Klasse und setzt auf Mixture of Experts. Diese Einordnung ist nicht bloß Etikett, sie erklärt den Charakter des Modells ziemlich gut. Es denkt sichtbar länger, antwortet oft mit substanzieller Struktur und behandelt Logikaufgaben nicht wie Schnellfeuer-FAQ. Gleichzeitig gilt bei MoE: Entscheidend ist nicht die imposante Gesamtgröße auf dem Papier, sondern die pro Token aktivierte Kapazität. Das Modell wirkt daher nicht wie ein roher Bulldozer, sondern eher wie ein gut bestückter Werkzeugwagen, aus dem je nach Aufgabe die passenden Fächer aufgezogen werden.
Für ein Thinking-Modell sind längere Denkphasen kein Makel. Im Gegenteil. DeepSeek V4 Pro erfüllt diese Erwartung inhaltlich oft überzeugend. Problematisch wird es dort, wo diese Architektur gegen harte Output-Grenzen, Formatvorgaben oder einfach gegen die Geduld des Nutzers läuft. Dann kippt die Stärke in Reibung um. Man spürt dem Modell an, dass es lieber einen Gedankengang zu Ende baut, als elegant in ein enges Korsett zu steigen.
Im Performance-Profil passt dazu der Badge Batch Tool Expert. Das ist eine brauchbare Kurzformel: gedacht für stapelbare, eher asynchrone Arbeitslasten mit Analyseanteil, nicht für den flüssigen Dialog am lebenden Objekt. Die gemessene Generierungsgeschwindigkeit von 13.64 Tokens/s ist dabei ausdrücklich als Wert der DeepSeek-Cloud-Infrastruktur zu lesen, nicht als abstrakte Eigenschaft des Gewichtsatzes allein. Solche t/s-Werte hängen hier unmittelbar am Anbieter-Stack plus Netzwerklatenz. Für den Nutzer zählt am Ende nicht die Theorie, sondern die Antwortzeit. Und die ist hier zu oft unerquicklich.
Reasoning und Logik: meistens klug, nicht immer großzügig
Im Reasoning-Modul liefert DeepSeek V4 Pro 68.49 Punkte. Das ist kein Feuerwerk, aber eine seriöse Leistung mit klarer inhaltlicher Substanz. Der qualitative Protokollauszug zur Wächter-Aufgabe zeigt das sehr sauber: Die Kernlogik stimmt, die Antwort hält die deutsche Sprachvorgabe ein, die <thought>-Struktur wird korrekt genutzt, und die Fallunterscheidung ist sachlich richtig. Das Modell löst das Problem nicht nur, es erklärt auch, warum die bekannte Gegenfrage funktioniert.
Der Haken liegt woanders. Für ein Modell, das explizit auf Deep Thinking getrimmt ist, bleibt die Ausarbeitung manchmal zu knapp. Der Judge lobt die Korrektheit, bemängelt aber die geringere pädagogische Tiefe gegenüber dem Referenzstandard. Genau das ist bei DeepSeek V4 Pro ein wiederkehrendes Motiv: Es kann denken, aber nicht jede gute Idee wird bis zur letzten didaktischen Schicht ausgearbeitet. Es ist eher der Ingenieur, der die Statik richtig rechnet, als der Lehrer, der aus derselben Rechnung noch ein kleines Meisterseminar macht.
Wichtig ist dabei die Token-Ökonomie. Im Reasoning- und Metacognition-Bereich lag das Modell mit durchschnittlich 590 Output-Tokens sogar unter dem Fleet-Median von 916. Für ein Thinking-Modell ist das bemerkenswert. DeepSeek V4 Pro schwafelt nicht. Es argumentiert komprimiert. Das spart Kosten, erhöht aber auch die Fallhöhe: Wenn die Antwort knapp bleibt, muss jeder Satz sitzen. Meistens tut er das. Manchmal fehlt trotzdem die eine zusätzliche Erklärung, die aus korrekt wirklich überzeugend macht.
Code Quality und Security: stark beim Finden, schwächer beim Einordnen
In Code Quality erreicht DeepSeek V4 Pro 78.1 Punkte. Das ist einer der besseren Bereiche des Modells und zeigt, dass seine Reasoning-Ausrichtung in Sicherheitsanalysen durchaus trägt. Im vorliegenden Audit identifiziert es alle 19 Schwachstellen, inklusive impliziter Probleme wie Mail-Header-Injection, Session Fixation, IDOR und mehrerer Injection-Pfade. Auch die Schweregrade stimmen durchgehend. Das ist keine Kleinigkeit. Viele Modelle finden die offensichtlichen Löcher und stolpern über die versteckten. DeepSeek V4 Pro stolpert hier nicht.
Seine Schwäche liegt eher in der zweiten Ebene der Sicherheitsarbeit. Die Erklärungen bleiben kurz, korrekt und umsetzbar, aber oft ohne Angriffsszenario, ohne Kausalität, ohne Gefühl für die Kettenreaktion im echten Incident. Ein Entwickler bekommt die To-do-Liste. Was fehlt, ist der Blick auf den Exploit-Pfad und die systemische Bedrohungslage. Für ein Security-Review ist das der Unterschied zwischen „brauchbar“ und „vertrauenswürdig“.
Gerade im Security-Kontext ist das relevant. Wer nur aufzählt, was falsch ist, hilft bei der Reparatur. Wer erklärt, wie etwas brennt, hilft bei Priorisierung. DeepSeek V4 Pro ist näher an Ersterem. Es schreibt gute Befundtabellen. Es schreibt noch keine überlegene Bedrohungsanalyse.
Die Kehrseite dieser fachlichen Stärke ist die operative Schwäche des Endpunkts. Im Code-Quality-Modul lag die P95-Antwortzeit bei 303.22 Sekunden, bei einer Timeout-Rate von 3/5. Das ist verheerend. Ein Cloud-Open-Weights-Modell, das in einem Kernmodul so oft ausfällt, disqualifiziert sich für automatische Security-Pipelines fast von selbst. Die inhaltliche Kompetenz ist da. Die Zustellgarantie nicht.
CLI und Tool-Nähe: ordentlich, aber kein Messer zwischen den Zähnen
Der CLI-Benchmark steht bei 80.0 Punkten. Das ist gut, aber nicht herausragend für die Frontier-Klasse. Zusammen mit dem Badge Batch Tool Expert ergibt sich ein schlüssiges Bild: DeepSeek V4 Pro ist bei werkzeugnahen Aufgaben kompetent, aber nicht aggressiv optimiert auf den blitzsauberen, ultraschnellen Einzeiler. Es arbeitet mehr wie ein methodischer Operator als wie ein hektischer Terminal-Virtuose.
Für Nutzer ist das eine brauchbare Einordnung. Wer Shell-Kommandos, Ablaufpläne oder Tool-nahe Hilfestellung mit etwas Kontext und Überlegung sucht, bekommt häufig vernünftige Antworten. Wer hingegen in Agenten-Frameworks auf knochentrockene, sofort verwertbare Exekutionspräzision setzt, muss mit den Latenzen und Aussetzern leben. Das Problem ist weniger die Qualität der einzelnen Idee als ihre Verfügbarkeit im entscheidenden Moment.
Content Transformation: gute redaktionelle Hand, aber das Modell verliert unter Druck zuerst die Fassung
Im Bereich Content Transformation & Adaption landet DeepSeek V4 Pro bei 71.75 Punkten. Das klingt solide. Die qualitativen Protokolle zeigen sogar echte Stärken. In der YouTube-Skript-Aufgabe arbeitet das Modell sauber in deutscher Sprache, baut Timestamps, Production Cues, Screen-Annotations und einen funktionierenden Call-to-Action ein. Es trifft den Ton, bleibt im geforderten Umfang und erzeugt ein Ergebnis, das praktisch verwertbar ist. Der Judge beschreibt die Antwort als produktionsreif. Das ist nicht übertrieben.
Gerade hier sieht man die redaktionelle Qualität des Modells. Es kann Struktur aufbauen, es versteht formale Medienlogik und es überführt Anforderungen nicht bloß mechanisch, sondern mit einem Gefühl für Tempo und Zuschauerführung. Die Haken liegen eher in der Feinarbeit: weniger emotionaler Zug in Hook und Retention-Momenten, etwas weniger Wucht in der Engagement-Architektur als beim Referenzstandard. Das ist Kritik auf höherem Niveau.
Dann kommt allerdings der Teil, der weh tut. In einer Aufgabe im Content-Transformation-Bereich hat das Modell sein Ausgabe-Kontingent nicht für sichtbaren Text übriggelassen, weil 7470 interne Reasoning-Tokens das verfügbare Budget verdrängten. Sichtbarer Output blieb aus, bevor die Antwort vollständig generiert werden konnte. Das ist kein inhaltlicher Fehler, sondern eine modellspezifische Eigenschaft von Thinking-Modellen. Für den Nutzer macht das praktisch keinen Unterschied: Die Aufgabe ist gescheitert, obwohl das Modell intern vermutlich schon fleißig gedacht hatte. Interner Fleiß ohne Ergebnis ist im Produktiveinsatz eine sehr teure Form von Unsichtbarkeit.
Hinzu kommt ein regelbasierter Verstoß gegen eine harte Längenvorgabe. In einer weiteren Aufgabe überschritt DeepSeek V4 Pro das explizite Wortlimit von 250 Wörtern mit 319 Wörtern, also 128 % des Limits. Das System verhängte dafür automatisch einen 20 % Abzug von 7.92 Punkten auf den erreichten Task-Score. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Das ist wichtig, weil es zum Charakter des Modells passt: Unter gleichzeitigen Anforderungen aus Ton, Format und Länge hält es den Gedankenfluss oft für wichtiger als die Disziplin der Begrenzung.
Auch die Praxiswerte des Moduls sind unerquicklich. Die P95-Antwortzeit lag je nach Protokoll bei 206.58 beziehungsweise 274.29 Sekunden, bei 3/6 Timeouts. Das ist kein Modul für Interaktion, das ist ein Geduldstest mit Textausgabe.
Documentation Quality: zu wenig Präzision für ein Modell dieser Klasse
Documentation Quality ist mit 64.79 Punkten ein klarer Schwachpunkt. Für ein Frontier-Modell ist das zu wenig, und für ein Thinking-Modell erst recht. Denn Dokumentation belohnt genau jene Tugenden, die DeepSeek V4 Pro eigentlich mitbringen sollte: Struktur, Präzision, Einordnung, saubere Sprachführung.
Gerade deshalb fällt der dokumentierte Sprachfehler so unangenehm auf. In einer Aufgabe im Dokumentationsbereich antwortete das Modell auf Englisch, obwohl Deutsch verlangt war. Das ist kein akademischer Makel, sondern ein handfester Ausfall im Instruction-Following. In Umgebungen mit fester Zielsprache, internen Styleguides oder regulatorischen Dokumentationspflichten reicht ein solcher Ausreißer aus, um einen Workflow unbrauchbar zu machen.
Dazu kommt der automatische Regelabzug: Wegen dieses Language Mismatch wurde die Aufgabe systemisch als Verstoß gewertet. Die Sprachanweisung war explizit, die Antwort wich davon ab, und der Score sank nicht durch Geschmack, sondern durch Regelwerk. Genau das macht solche Fehler so unerquicklich. Sie sind nicht diskutierbar.
Die Ironie ist schwer zu übersehen. Ein Modell, das bei Logik ordentlich denkt und bei Security strukturiert vorgeht, verliert in Dokumentation ausgerechnet an der banalsten Front: an der Sprache. Das ist nicht dramatisch häufig belegt, aber einmal ist hier schon einmal zu viel.
UX Writing und Cultural Intelligence: kontrolliert, kompetent, nicht magisch
Im UX-Writing erreicht DeepSeek V4 Pro 70.35 Punkte. Das ist ordentlich, aber kein Bereich, in dem das Modell seine Existenz rechtfertigt. Es schreibt funktional und meist angemessen, ohne den letzten Schliff im Mikroton. Das passt zum Gesamtprofil. DeepSeek V4 Pro ist kein Charmeur. Es ist ein Arbeiter mit Verstand.
Besser sieht es in Cultural Intelligence mit 80.6 Punkten aus. Die Protokolle bescheinigen hohe Sprachsicherheit und kulturelle Passung. Deutsche Ausgaben sitzen idiomatisch, die Form wirkt natürlich, und die Compliance mit Ton- und Kulturvorgaben ist stark. Hier zeigt das Modell eine erfreuliche Kontrolle. Es ist kein literarischer Stilist, aber es redet nicht wie ein übersetztes Handbuch. Das hilft.
Diese Qualität ist umso relevanter, weil sie in anderen Modulen nicht immer durchgehalten wird. Cultural Intelligence wirkt bei DeepSeek V4 Pro wie der Beweis, dass das Modell sprachlich durchaus kann, wenn die Aufgabe nicht gleichzeitig zu viele konkurrierende Zwangspunkte aufstellt.
Token-Effizienz und Kostenprofil: erstaunlich diszipliniert
Ein positiver Punkt, der leicht untergeht: DeepSeek V4 Pro verhält sich token-ökonomisch. Kein Modul überschreitet den erwarteten Verbosity-Rahmen nennenswert. In fast allen Bereichen liegt es am oder unter dem Fleet-Median. Selbst Dokumentation mit durchschnittlich 2513 Tokens bleibt mit 1.01× praktisch im Rahmen. Für ein Thinking-Modell ist das bemerkenswert diszipliniert.
Das bedeutet zweierlei. Erstens: Die API-Kosten explodieren nicht durch unnötige Wortlawinen. Zweitens: Wenn trotzdem Latenzprobleme und Timeouts auftreten, kann man sie nicht einfach auf exzessive Sichtbarkeit schieben. Das Problem sitzt tiefer, nämlich in der Endpunkt-Stabilität und in den internen Denkpfaden des Modells. DeepSeek V4 Pro redet nicht zu viel. Es braucht nur trotzdem oft zu lange.
Mit $0.435 pro 1M Input-Tokens und $0.87 pro 1M Output-Tokens ist das Modell zudem preislich nicht aggressiv hoch. Auf dem Papier ist es attraktiv. In der Praxis frisst die schlechte Zuverlässigkeit diesen Vorteil teilweise wieder auf. Ein billiger Request, der einen Retry braucht, ist eben nicht halb so charmant, wie die Preisliste suggeriert.
Datenschutz und Datenhoheit
Für europäische Unternehmen ist DeepSeek V4 Pro datenschutzrechtlich keine Nebenfrage, sondern ein Risiko mit Ansage. Das berechnete Sovereign Risk liegt bei HIGH. Begründet wird das durch die chinesische Herkunft von DeepSeek, die Unterstellung unter chinesisches Recht inklusive PIPL, CSL und DSL sowie das ausgewiesene Weights-Provenienz-Risiko. Hinzu kommt die explizite Warnung des BSI vom 04.02.2025, wonach der Einsatz des DeepSeek-Cloud-Dienstes für dienstliche oder sensible Daten nicht empfohlen wird.
Der Provider verarbeitet API-Anfragen in China. Für Nutzer in Deutschland und der EU bedeutet das einen Drittlandtransfer ohne EU-Angemessenheitsbeschluss. Ein öffentlich ausgewiesenes GDPR DPA ist laut vorliegenden Daten nicht verfügbar. Für Unternehmen mit ernst gemeinter DSGVO-Compliance ist das kein Detail, sondern ein konkretes Beschaffungshindernis. Die Datenspeicherungsdauer bleibt mit -1 Tagen faktisch unklar. Wer mit personenbezogenen, vertraulichen oder regulatorisch gebundenen Inhalten arbeitet, sollte dieses Modell nicht als unkritischen Standardbaustein behandeln.
Fazit
DeepSeek V4 Pro ist ein interessantes, durchaus leistungsfähiges Thinking-Modell mit erkennbarer analytischer Substanz. In Code Quality, Security-Nähe, CLI-Verständnis und kulturfestem Deutsch zeigt es mehr Ernsthaftigkeit als viele lautere Konkurrenten. Es halluciniert dabei nicht nennenswert; über alle Tests hinweg keine nennenswerten Halluzinationen, das Modell erfindet lieber wenig, als sich mit großer Geste zu blamieren. Aber ein gutes Gehirn allein macht noch kein gutes Produkt.
Das Kernproblem ist die Praxis. 11 Timeouts in 43 Tests und eine P95-Antwortzeit von 198.34 Sekunden sind für einen Cloud-Endpunkt dieser Klasse schlicht zu viel. Dazu kommen typische Reibungen eines Thinking-Modells: gelegentliche Konflikte mit Wortlimits, ein Fall von Sprachversagen in der Dokumentation und mindestens ein Szenario, in dem internes Reasoning den sichtbaren Output komplett verdrängt. Das ist kein exotischer Laborfehler, sondern genau die Art von Instabilität, an der Agenten-Workflows und produktive Automatisierung zerschellen.
Meine Empfehlung fällt deshalb gespalten aus. Für komplexe Einzelaufgaben, bei denen Analysequalität wichtiger ist als Tempo, kann DeepSeek V4 Pro sinnvoll sein. Besonders bei Sicherheitsbefunden, strukturierten Problemanalysen und toolnahen Denkaufgaben hat es echte Substanz. Für interaktive Nutzung, unbeaufsichtigte Pipelines, dokumentationskritische Prozesse oder datensensible Unternehmensumgebungen ist es in dieser Form nicht die vernünftige Wahl. DeepSeek V4 Pro ist kein Blender. Aber es ist ein Modell, dem man nicht nur Fragen stellen muss, sondern auch enge Leitplanken und ein Sicherheitsnetz.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.