DeepSeek V3.2

DeepSeek V3.2 ist als Frontier-Modell auf Sprache, Code und Reasoning ausgelegt und nutzt die gleiche MoE-Architektur wie sein Vorgänger mit 671 Milliarden Gesamt- und 37 Milliarden aktiven Parametern. Das Modell arbeitet mit einem 128.000-Token-Kontextfenster, ist als Open-Weights-Variante lokal betreibbar und über die Cloud-API zu niedrigen Preisen verfügbar. Die chinesische Jurisdiktion macht eine Bewertung des Cloud-Einsatzes erforderlich.

DeepSeek Version v3.2 Kommerzielle Nutzung erlaubt MoE 671 B (37 B aktiv) 128 K Context 01/2025 $0.14 / $0.28 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Real-Time

Sovereign Risk: HIGH DeepSeek ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten und Modelle ermöglichen kann. Das BSI hat am 04.02.2025 vor dem Einsatz des DeepSeek-Cloud-Dienstes gewarnt; bei ausschließlich lokalem Betrieb der Open-Weights-Variante ohne Datenübertragung nach China ist das cloud-spezifische Risikoszenario reduziert.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.8
First Request
MCP
0.88
Protocol Latency
Synthesis
11.27
Response Generation
Total
89.72
Sum of All Phases
Token
8648
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung insgesamt tragfähig ist, aber die Synthesetreue mit Halluzinationssignal und ungültigem Tool-Call nicht ausreicht, um das Modell unbeaufsichtigt in kritische MCP-Pipelines zu setzen.

Tool-Execution-Profil

DeepSeek V3.2 zeigt echte Werkzeugintelligenz, nicht nur starres Call-Muster. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, wählt es das richtige Werkzeug sicher. Das spricht für brauchbare Planungsfähigkeit in dynamischen Pipelines. Beim Test URL Construction & Fetch, der die Ableitung einer Ziel-URL aus eigenem Wissen misst, arbeitet es brauchbar, aber nicht deterministisch genug für fragile Produktionspfade. Der P1-Wert von 83.33 ist daher belastbar, aber nicht sauber genug, um auf harte Protokolltreue zu schließen. Kritisch ist, dass mindestens ein Tool-Call formal nicht valide war. Das ist kein reines Qualitätsdetail, sondern ein Integrationsrisiko für MCP-Orchestrierung, weil ein einziger fehlerhafter Call ganze Ketten stoppt. Positiv ist, dass kein Retry nötig war. Das wirkt eher wie punktuelle Protokollungenauigkeit als wie grundlegendes Verständnisproblem.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Die P2-Leistung von 52.50 zeigt ein klares Muster: starke Extraktion bei HTTP Fetch & Extract, aber schwache Verdichtung sobald mehrere Quellen, Sprachwechsel oder unklare Fehlersituationen zusammenkommen. Besonders der Test Multilingual Search & Synthesis, der grenzüberschreitende Recherche und deutsche Zusammenfassung misst, ist mit P2=15 für produktive Wissenspipelines klar zu schwach.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen kommen, bleibt das Modell grundsätzlich im Tool-Pfad und halluziniert nicht. Das ist der wichtigste positive Vertrauensbefund. Gleichzeitig bleibt das globale Halluzinationssignal ein Sicherheitsrisiko: Sobald ein Modell in einer Tool-Pipeline erfundene Fakten als abgerufene Inhalte ausgibt, verliert die Infrastruktur ihren Nachweischarakter.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit gescheiterten Tool-Aufrufen misst, erfindet DeepSeek V3.2 keinen Seiteninhalt. Das ist die Mindestanforderung für Produktion und wurde erfüllt. Die P2=40 zeigt aber, dass die Fehlerkommunikation nicht präzise genug ist. Für Nutzer bedeutet das: eher vage oder unvollständige Fehlereinordnung statt klarer operativer Diagnose.

Betriebsprofil

Total 89.72s. Call 1 2.80s, MCP-Latenz 0.88s, Call 2 11.27s. Für die gezeigte Leistung langsam. Kosten/Run lokal, damit finanziell attraktiv, aber die Laufzeit ist für interaktive oder hochvolumige Pipelines schwer zu rechtfertigen.

Fazit & Empfehlung

Geeignet für lokal betriebene Recherche- und Abrufpipelines mit Human-in-the-Loop, vor allem wenn Tool-Wahl wichtiger ist als saubere Endverdichtung. Nicht geeignet für Compliance, regulatorische Dokumentation, kundensichtbare Antwortketten oder autonome Agentenpfade, in denen jede Synthese als belastbarer Tool-Nachweis gelten muss. Wenn Sie es einsetzen, dann hinter strikter Tool-Call-Validierung, Response-Schema-Prüfung und einem zweiten Verifikationsschritt für die finale Zusammenfassung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.