DeepSeek V4 Pro

DeepSeek V4 Pro ist das Flaggschiff der V4-Linie und auf Reasoning, Coding und agentische Workflows ausgelegt. Die Hybrid-Attention-MoE-Architektur vereint 1,6 Billionen Gesamtparameter mit 49 Milliarden aktiven Parametern pro Token und einem Kontextfenster von einer Million Tokens. Das Modell ist unter MIT-Lizenz als Open-Weight-Modell verfügbar, wobei die chinesische Jurisdiktion bei Cloud-Nutzung eine separate Datenschutz-Bewertung erforderlich macht.

DeepSeek Version 4 Kommerzielle Nutzung erlaubt MoE 1600 B (49 B aktiv) 1000 K Context 05/2025 $0.435 / $0.87 per 1M

Open Weights
Frontier
OR
Text
Agentic Orchestrator
Long Context
Interactive

Sovereign Risk: HIGH DeepSeek ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten und Modelle ermöglichen kann. Das BSI hat am 04.02.2025 explizit vor dem Einsatz des DeepSeek-Cloud-Dienstes gewarnt: Nutzerdaten werden auf chinesischen Servern gespeichert; eine Nutzung für dienstliche oder sensible Daten wird nicht empfohlen. Für den Cloud-API-Betrieb gilt diese Warnung uneingeschränkt.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 4.2; First Request

MCP: 0.8; Protocol Latency

Synthesis: 16.99; Response Generation

Total: 131.93; Sum of All Phases

Token: 5397; Input + Output

Cost: $0.0032; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil DeepSeek V4 Pro valide Tool-Calls erzeugt, keine Halluzination im Lauf gezeigt hat und mit Combined 76.00 klar produktionsfähig wirkt, aber die Synthesequalität für verifikationskritische Pipelines zu ungleich bleibt.

Tool-Execution-Profil

Die Tool-Ausführung ist stark. Das Modell arbeitet MCP-konform, der Tool-Call war valide und es brauchte keinen Retry. Entscheidend ist die Werkzeugwahl: Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis prüft, ob für aktuelle Informationen zuerst gesucht statt direkt gefetcht werden muss, trifft es die richtige Entscheidung sicher. Das spricht gegen bloßes Schema-Folgen und für brauchbare Tool-Intelligenz in dynamischen Abläufen.

Weniger sauber ist die Präzision beim URL-Construction-Test, der prüft, ob das Modell die Ziel-URL aus eigenem Wissen ableiten und dann korrekt abrufen kann. P1 80 ist gut, aber nicht stark genug für strikt deterministische Pipelines mit hartem URL-Schema. Für Such-, Recherche- und Routing-Schritte ist das Modell belastbar. Für direkte, stillschweigende URL-Ableitung ohne Validierung sollte die Pipeline Schutzgeländer setzen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Solide, aber nicht durchgehend präzise genug. P2 63.33 zeigt, dass das Modell Ergebnisse meist brauchbar zusammenführt, jedoch mit merklichem Verlust an Schärfe. Das sieht man besonders bei EU License Research mit P2 40 und bei mehreren Such-Assets mit nur mittlerer Verdichtung. Für Analysten-Workflows ist das akzeptabel. Für Compliance-, Legal- oder Policy-Summaries ist Nachkontrolle nötig.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau diese Versuchung prüft, bleibt das Modell formal auf der sicheren Seite: Content-Verification-State A, keine erkannte Halluzination. Das Vertrauenssignal ist deshalb besser als der P2-Wert vermuten lässt. Das Problem ist hier nicht Erfindung, sondern ungenaue Verdichtung aktueller Quellen.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der prüft, ob ein fehlgeschlagener Tool-Call offen benannt oder mit erfundenem Inhalt überdeckt wird, kommuniziert das Modell transparent. Es halluziniert trotz Fehler keinen Seiteninhalt. Genau dieses Verhalten hält eine Tool-Pipeline vertrauenswürdig, auch wenn der Antwortfluss unterbrochen wird.

Betriebsprofil

Call 1 4.20s. MCP-Latenz 0.80s. Call 2 16.99s. Total 131.93s. Damit klar langsam. Kosten pro Run 0.003245. Damit günstig bis sehr günstig für ein Frontier-Reasoning-Modell. Preis passt, Laufzeit ist der eigentliche Trade-off.

Fazit & Empfehlung

Geeignet für MCP-gestützte Recherche-, Analyse- und mehrstufige Reasoning-Pipelines, in denen korrektes Tooling wichtiger ist als knappe Antwortzeit. Nicht die erste Wahl für hochfrequente User-Interaktion, streng deterministische Fetch-Flows oder jede Pipeline, in der die Endsynthese selbst als belastbarer Nachweis gelten muss. Wer es einsetzt, sollte Tool-Use direkt vertrauen, die finale Verdichtung aber bei sensiblen Domänen durch Zitatbindung, Feldextraktion oder einen zweiten Verifikationsschritt absichern.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

DeepSeek V4 Pro

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung