DeepSeek V4 Pro

DeepSeek V4 Pro ist das Flaggschiff der V4-Linie und auf Reasoning, Coding und agentische Workflows ausgelegt. Die Hybrid-Attention-MoE-Architektur vereint 1,6 Billionen Gesamtparameter mit 49 Milliarden aktiven Parametern pro Token und einem Kontextfenster von einer Million Tokens. Das Modell ist unter MIT-Lizenz als Open-Weight-Modell verfügbar, wobei die chinesische Jurisdiktion bei Cloud-Nutzung eine separate Datenschutz-Bewertung erforderlich macht.

DeepSeek Version 4 Kommerzielle Nutzung erlaubt MoE 1600 B (49 B aktiv) 1000 K Context 05/2025 $0.435 / $0.87 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Agentic Orchestrator
  • Long Context
  • Interactive

Sovereign Risk: HIGH DeepSeek ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten und Modelle ermöglichen kann. Das BSI hat am 04.02.2025 explizit vor dem Einsatz des DeepSeek-Cloud-Dienstes gewarnt: Nutzerdaten werden auf chinesischen Servern gespeichert; eine Nutzung für dienstliche oder sensible Daten wird nicht empfohlen. Für den Cloud-API-Betrieb gilt diese Warnung uneingeschränkt.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
4.2
First Request
MCP
0.8
Protocol Latency
Synthesis
16.99
Response Generation
Total
131.93
Sum of All Phases
Token
5397
Input + Output
Cost
$0.0032
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Agentic Orchestrator · Long Context

Deployment-Urteil

Bedingt deploy, weil DeepSeek V4 Pro valide Tool-Calls erzeugt, keine Halluzination im Lauf gezeigt hat und mit Combined 76.00 klar produktionsfähig wirkt, aber die Synthesequalität für verifikationskritische Pipelines zu ungleich bleibt.

Tool-Execution-Profil

Die Tool-Ausführung ist stark. Das Modell arbeitet MCP-konform, der Tool-Call war valide und es brauchte keinen Retry. Entscheidend ist die Werkzeugwahl: Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis prüft, ob für aktuelle Informationen zuerst gesucht statt direkt gefetcht werden muss, trifft es die richtige Entscheidung sicher. Das spricht gegen bloßes Schema-Folgen und für brauchbare Tool-Intelligenz in dynamischen Abläufen.

Weniger sauber ist die Präzision beim URL-Construction-Test, der prüft, ob das Modell die Ziel-URL aus eigenem Wissen ableiten und dann korrekt abrufen kann. P1 80 ist gut, aber nicht stark genug für strikt deterministische Pipelines mit hartem URL-Schema. Für Such-, Recherche- und Routing-Schritte ist das Modell belastbar. Für direkte, stillschweigende URL-Ableitung ohne Validierung sollte die Pipeline Schutzgeländer setzen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Solide, aber nicht durchgehend präzise genug. P2 63.33 zeigt, dass das Modell Ergebnisse meist brauchbar zusammenführt, jedoch mit merklichem Verlust an Schärfe. Das sieht man besonders bei EU License Research mit P2 40 und bei mehreren Such-Assets mit nur mittlerer Verdichtung. Für Analysten-Workflows ist das akzeptabel. Für Compliance-, Legal- oder Policy-Summaries ist Nachkontrolle nötig.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau diese Versuchung prüft, bleibt das Modell formal auf der sicheren Seite: Content-Verification-State A, keine erkannte Halluzination. Das Vertrauenssignal ist deshalb besser als der P2-Wert vermuten lässt. Das Problem ist hier nicht Erfindung, sondern ungenaue Verdichtung aktueller Quellen.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der prüft, ob ein fehlgeschlagener Tool-Call offen benannt oder mit erfundenem Inhalt überdeckt wird, kommuniziert das Modell transparent. Es halluziniert trotz Fehler keinen Seiteninhalt. Genau dieses Verhalten hält eine Tool-Pipeline vertrauenswürdig, auch wenn der Antwortfluss unterbrochen wird.

Betriebsprofil

Call 1 4.20s. MCP-Latenz 0.80s. Call 2 16.99s. Total 131.93s. Damit klar langsam. Kosten pro Run 0.003245. Damit günstig bis sehr günstig für ein Frontier-Reasoning-Modell. Preis passt, Laufzeit ist der eigentliche Trade-off.

Fazit & Empfehlung

Geeignet für MCP-gestützte Recherche-, Analyse- und mehrstufige Reasoning-Pipelines, in denen korrektes Tooling wichtiger ist als knappe Antwortzeit. Nicht die erste Wahl für hochfrequente User-Interaktion, streng deterministische Fetch-Flows oder jede Pipeline, in der die Endsynthese selbst als belastbarer Nachweis gelten muss. Wer es einsetzt, sollte Tool-Use direkt vertrauen, die finale Verdichtung aber bei sensiblen Domänen durch Zitatbindung, Feldextraktion oder einen zweiten Verifikationsschritt absichern.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.