DeepSeek V3.1-671B

DeepSeek V3.1 (Mai 2025) ist ein 671B-Parameter-MoE-Modell (37B aktiv) von DeepSeek (China) unter DeepSeek License. Starker Code-Generator mit Engram-Memory-Architektur, 128K-Token-Kontextfenster. Chinesische Herkunft und NSL sind bei der Datenrisikoeinschätzung zu berücksichtigen.

DeepSeek Version v3.1 Kommerzielle Nutzung erlaubt MoE 671 B (37 B aktiv) 128 K Context 01/2025 $0.21 / $0.79 per 1M

  • Open Weights
  • Frontier
  • OR
  • General
  • Instruct
  • Real-Time

Sovereign Risk: HIGH DeepSeek ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten und Modelle ermöglichen kann. Das BSI hat am 04.02.2025 vor dem Einsatz des DeepSeek-Cloud-Dienstes gewarnt; bei ausschließlich lokalem Betrieb der Open-Weights-Variante ohne Datenübertragung nach China ist das cloud-spezifische Risikoszenario reduziert.

LLM Model Review

· General · Instruct

Mit einem Gesamtscore von 73,48 Prozent liefert DeepSeek V3.1 671B genau das, was seine Einstufung verspricht: ein Frontier-Generalist mit Instruct-Charakter, der schnell gehorcht, ordentlich formuliert und seine Stärken vor allem dann zeigt, wenn Struktur wichtiger ist als Glanz. Die MoE-Architektur ist dabei der entscheidende Kontext: Nicht 671 Milliarden Gesamtparameter sind die relevante Messgröße, sondern rund 37 Milliarden aktive Parameter pro Antwort. Dafür ist die Leistung respektabel, stellenweise sogar sehr respektabel, aber sie hat sichtbare Kanten bei Tiefe, Sicherheitsanalyse und dokumentarischer Präzision. Als Cloud-Open-Weights-Modell via DeepSeek tritt es mit dem Speed-Profile-Badge „Real-Time Tool Expert“ an und erzeugt 42,65 Tokens pro Sekunde, was weniger über einen heimischen Rechner als über die Leistungsfähigkeit der eingesetzten Cloud-Infrastruktur und deren Netzwerkpfad aussagt. Sovereign Risk: HIGH — DeepSeek verarbeitet Anfragen laut Provider Card in China unter chinesischem Recht; ein DSGVO-konformes DPA fehlt.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik Wert Bewertung Analyse
Timeout-Rate 0/43 Stabil Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit 32.47 s Akzeptabel Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar.

Das ist ein wichtiger Befund, gerade weil hier ein Open-Weights-Modell über einen Cloud-Endpunkt bewertet wird. Keine Timeouts bedeuten in diesem Fall nicht, dass irgendeine Maschine tapfer durchgehalten hat, sondern dass API und Backend im Benchmark sauber standen. Die P95-Antwortzeit von 32,47 Sekunden ist allerdings kein Ruhmesblatt. Sie bleibt im akzeptablen Bereich, aber in fünf Prozent der Anfragen wartet der Nutzer eben spürbar zu lang. Für Chat, Redaktion und Analyse ist das noch tragbar. Für enge Agenten-Schleifen wird es bereits zäh.

Architektur und Charakter: Generalist mit Instruct-Disziplin, nicht mit Reasoning-Aura

Die kuratierte Einordnung als Generalist, Frontier und MoE trifft den Kern erstaunlich genau. DeepSeek V3.1 671B ist kein Spezialist, der alles dem Coding oder tiefem Reasoning unterordnet. Es ist ein Allround-Modell, das viele Disziplinen ordentlich bis gut abdeckt. Als Instruct-Modell priorisiert es klare Ausführung vor intellektuellem Theater. Es antwortet meist knapp genug, hält Formate ein und verzettelt sich nicht in bedeutungsschwangeren Vorreden. Das ist im Alltag oft mehr wert als die nächste pseudo-philosophische Gedankenschleife.

Die MoE-Struktur erklärt zugleich, warum das Modell in der Breite konkurrenzfähig wirkt, ohne überall die Schärfe eines kompromisslosen Spitzenmodells zu erreichen. Bei einer Mixture-of-Experts-Architektur arbeitet pro Token nur ein Teil der Gewichte aktiv. Der relevante Vergleichsmaßstab ist deshalb die aktive Kapazität von 37 Milliarden Parametern, nicht die imposante Gesamtzahl von 671 Milliarden. Genau so liest sich das Ergebnis auch: effizient, breit, oft treffend, aber nicht immer mit letzter Tiefe.

Performance und Kostenprofil

Das Speed-Profile „Real-Time Tool Expert“ passt. DeepSeek V3.1 671B ist schnell genug, um im interaktiven Einsatz nicht wie ein Batch-Job zu wirken, und langsam genug, um nicht in die Kategorie nervöser Autocomplete-Maschine zu rutschen. Mit 42,65 Tokens pro Sekunde liegt es in einer Zone, in der Tool-nahe Workflows, Redaktionsaufgaben und strukturierte Texttransformationen praktikabel bleiben. Nochmal: Das ist ein Wert der Cloud-Bereitstellung via DeepSeek, nicht irgendein universeller Modellwert. Wer denselben Namen über einen anderen Anbieter nutzt, misst unter Umständen ein anderes Geschwindigkeitsprofil.

Preislich ist das Modell fast provokant günstig: 0,15 Dollar pro Million Input-Tokens und 0,75 Dollar pro Million Output-Tokens, im Benchmark rund 0,0308 Dollar pro Durchlauf. Das macht DeepSeek V3.1 671B ökonomisch attraktiv. Noch besser: Es verhält sich token-ökonomisch. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Im CLI-Bereich liegt es mit durchschnittlich 81 Output-Tokens sogar deutlich unter dem Fleet-Median von 204. Auch Code Quality, Documentation, UX und Content bleiben sauber unter dem Schnitt. Das Modell redet also nicht mehr als nötig. Bei API-Nutzung ist das keine Stilfrage, sondern eine Kostenfrage.

Code Quality und Security: viel erkannt, aber nicht tief genug geschnitten

In der Code-Qualität erreicht DeepSeek V3.1 671B 77,9 Prozent. Das ist ein gutes Ergebnis, aber die qualitative Auswertung zeigt, warum man es nicht für Exzellenz halten sollte. Das Modell erkennt viele Standardprobleme zuverlässig: SQL-Injection in mehreren Pfaden, Klartext-Passwörter, Type-Juggling bei API-Authentifizierung, Path Traversal, unsichere Cookie-Auth, IDOR. Das Fundament stimmt. Wer ein verseuchtes PHP-Konstrukt auf den Tisch legt, bekommt keinen blind optimistischen Gefälligkeitskommentar zurück.

Der Haken folgt dort, wo Sicherheitsarbeit ernst wird. Im Audit fehlten drei relevante Schwachstellen komplett: ein hartkodierter API-Secret, Datenbank-Zugangsdaten mit Root ohne Passwort und ein Reset-Token ohne Ablaufzeit. Das sind keine Schönheitsfehler. Das sind Lücken in der Angriffskette. Hinzu kommen mehrere Fehleinstufungen bei den Schweregraden. Path Traversal und IDOR wurden zu mild bewertet, Session Fixation ebenfalls. Solche Unterschätzungen sind im Security-Kontext gefährlicher als eine holprige Formulierung, weil sie Priorisierung im Team verzerren.

Noch deutlicher wird das qualitative Profil bei den Fixes. DeepSeek liefert meist korrekte Reparaturansätze, aber oft in Kurzform. Funktional, nicht forensisch. Es sagt, welches Werkzeug man benutzen sollte, erklärt aber seltener den sicheren Gesamtrahmen eines Fixes. Wer nur einen brauchbaren Startpunkt will, bekommt ihn. Wer einen belastbaren Security-Review mit Angriffspfaden, Priorisierung und sauberen Gegenmaßnahmen erwartet, braucht ein wacheres Gegenüber.

Das führt zum Gesamturteil in diesem Bereich: DeepSeek V3.1 671B ist ein brauchbarer Security-Scout, aber kein Security-Lead. Es sieht genug, um nützlich zu sein. Es sieht nicht genug, um beruhigend zu sein.

Logik und Reasoning: korrekt, aber ohne pädagogischen Ehrgeiz

Im Reasoning-Modul kommt das Modell auf 63,77 Prozent. Das wirkt zunächst mäßig, die Protokolle zeichnen aber ein differenzierteres Bild. Bei der klassischen Wächter-Aufgabe war die Lösung logisch korrekt, sauber strukturiert und vollständig in deutscher Sprache geliefert. Das Modell nutzte die geforderten <thought>-Tags, analysierte die beiden Fälle richtig und kam zur korrekten Doppel-Inversions-Lösung. Der Kern stimmt also.

Was fehlt, ist nicht die Logik, sondern die Tiefe. Der Judge bescheinigt dem Modell korrekte Gedankenführung, aber weniger didaktische Ausarbeitung als im Referenzstandard. DeepSeek erklärt, was funktioniert. Es erklärt seltener, warum die Methode als allgemeines Muster robust ist. Genau hier merkt man den Instruct-Charakter. Dieses Modell will Aufgaben lösen, nicht Seminare halten. Das ist in vielen Praxisfällen sogar sympathisch. Im Benchmark kostet es Punkte.

Für Nutzer heißt das: Wenn Sie ein Modell suchen, das logische Rätsel und strukturierte Denkaufgaben korrekt abarbeitet, ist DeepSeek V3.1 671B glaubwürdig. Wenn Sie ausführliche Herleitungen, Meta-Erklärungen und konzeptionelle Tiefenbohrungen erwarten, bleibt ein Rest von Nüchternheit, den man höflich „effizient“ nennen kann. Oder strenger: Es denkt ordentlich, aber nicht mit sichtbarer Lust an der Sache.

Content Transformation: stark im Umbau, schwächer in der strategischen Dramaturgie

Mit 76,35 Prozent gehört die Inhaltsumformung zu den besseren Disziplinen des Modells. Das qualitative Protokoll zum YouTube-Skript für Zwei-Faktor-Authentifizierung zeigt ein typisches DeepSeek-Muster: Das Ergebnis ist gut benutzbar, sprachlich sauber, vollständig und in vielen Details praxistauglich. Zeitmarken sitzen, Bildschirmhinweise sind reichlich vorhanden, die Sprache ist gesprächig genug, um nicht nach Behördenvideo zu klingen. Das ist schon mehr, als viele Modelle in diesem Modul hinbekommen.

Aber gerade bei Formaten, die nicht nur korrekt, sondern performativ sein sollen, fehlen die letzten zehn Prozent. Der Judge moniert zu Recht den schwächeren Hook, das fehlende Pattern-Interrupt zur Zuschauerbindung, eine zu offen ausgespielte Easter-Egg-Idee und weniger präzise Produktionshinweise. Kurz gesagt: Das Modell baut ein brauchbares Video-Skript. Es baut nicht automatisch ein gutes YouTube-Skript im professionellen Sinn. Der Unterschied ist real. Das eine erklärt. Das andere hält Zuschauer.

Bemerkenswert ist dabei die Balance zwischen Qualität und Effizienz. Obwohl die Antwort recht umfangreich war, blieb sie tokenseitig unter dem Fleet-Median. DeepSeek V3.1 671B produziert also keine Textlawinen, um Wirkung zu simulieren. Es liefert ein solides Paket, dem strategische Medienintelligenz an einzelnen Stellen noch fehlt.

UX Writing und Mikrokopie: ordentlich geführt, aber ohne besondere Handschrift

Im UX-Writing landet das Modell bei 65,35 Prozent. Das ist kein Ausfall, aber auch kein Bereich, in dem DeepSeek V3.1 671B Persönlichkeit entfaltet. Die vorliegenden Auszüge zeigen, dass es Struktur, Schrittlogik und tabellarische Darstellung beherrscht. Der Judge lobt vorhandene Markdown-Tabelle, progressive Offenlegung und kurze Schritte. Das ist die gute Nachricht.

Die weniger gute lautet: Solche Aufgaben erledigt das Modell eher pflichtbewusst als elegant. Es schreibt verständlich und geordnet, aber nicht mit jener Präzision im Ton, die Mikrotexte wirklich stark macht. UX-Writing lebt von Verdichtung, situativem Feingefühl und psychologischer Treffsicherheit. DeepSeek liefert die Mechanik, nicht immer die Nuance. Das reicht für interne Entwürfe und erste Produkttexte. Für finale Nutzerführung sollte man redigieren.

Documentation Quality: der Bereich, in dem DeepSeek sich selbst ein Bein stellt

Die Dokumentationsqualität ist mit 63,99 Prozent nur durchschnittlich, und hier liegt der klarste Compliance-Makel des gesamten Benchmarks. In einer Aufgabe dieses Moduls antwortete das Modell auf Englisch, obwohl explizit Deutsch verlangt war. Das ist nicht bloß ein Stilproblem, sondern ein automatischer Hard-Constraint-Verstoß. Das System verhängte den Abzug regelbasiert, unabhängig von der inhaltlichen Qualität. Anders gesagt: Selbst eine gute Antwort wäre in diesem Moment durchgefallen, weil sie in der falschen Sprache geliefert wurde.

Dieser Befund ist deshalb wichtiger als es wiegt, weil Dokumentationsaufgaben oft mehrere Bedingungen gleichzeitig kombinieren: Sprache, Struktur, Zielgruppe, Kürze, technische Präzision. Genau dort zeigt DeepSeek V3.1 671B eine bekannte Schwäche vieler Instruct-Modelle. Wenn mehrere Zwangsbedingungen gleichzeitig ziehen, fällt nicht zuerst die Struktur, sondern die Sprachvorgabe. In produktiven Umgebungen mit festem Sprachraum ist das ein echtes Risiko. Eine Dokumentation in der falschen Sprache ist nicht „fast richtig“. Sie ist unbrauchbar.

Das Modell ignorierte hier also eine explizite Sprachanweisung und antwortete auf Englisch. Das ist als Instruction-Following-Schwäche zu werten, nicht als inhaltlicher Ausrutscher. Wer DeepSeek in mehrsprachigen Redaktions- oder Support-Pipelines einsetzen will, sollte Sprachvorgaben hart validieren und nicht auf stilles Wohlverhalten hoffen.

Cultural Intelligence: stark, sauber, professionell

Einer der überzeugendsten Bereiche ist die kulturelle Sensibilität mit 85,3 Prozent. Das ist nicht nur ein guter Zahlenwert, sondern auch qualitativ verdient. Im bewerteten Beispiel entfernte DeepSeek toxische Begriffe zuverlässig, neutralisierte Gender-Bias und hielt die Ausgabe strikt auf Deutsch, ohne Erklär-Overhead oder Selbstkommentar. Genau so muss so eine Aufgabe erledigt werden.

Interessant ist die Art der Schwäche hier: nicht grob, sondern fein. Der Judge attestiert der Fassung eine leicht kühlere, formellere Tonlage als dem wärmeren Referenztext. Es fehlt etwas emotionale Resonanz, etwas Einladungscharakter, etwas Initiative. Das ist kein ideologischer Streit, sondern Textarbeit. DeepSeek V3.1 671B kann sensible Sprache bereinigen und professionalisieren. Es trifft nur nicht immer den freundlichsten, menschlich anschlussfähigsten Ton. Für HR, interne Kommunikation und Compliance-nahe Textbearbeitung ist das trotzdem eine klare Stärke.

CLI- und Tool-Nähe: schnell, knapp, nützlich

Der CLI-Benchmark steht bei 86,12 Prozent, Tool-Execution bei 90,00 Prozent, die Synthesis Quality bei 70,08 Prozent. Zusammen mit dem Speed-Badge ergibt das ein plausibles Bild: DeepSeek V3.1 671B ist in werkzeugnahen Aufgaben deutlich stärker als in textlicher Feinarbeit. Das Modell scheint sich wohlzufühlen, wenn Kommandos, strukturierte Schritte und handwerklich klare Ziele gefragt sind.

Besonders positiv: Es bleibt dabei knapp. Mit durchschnittlich 81 Tokens im CLI-Modul liegt es bei nur 0,4-mal des Fleet-Medians. Diese Kürze ist hier kein Mangel, sondern Kompetenz. Das Modell kommt zur Sache. Für Ops-nahe Workflows, technische Assistenz und toolgestützte Agenten ist das ein echter Vorteil. Das Modell muss nicht jedes Mal einen Essay schreiben, wenn ein Befehl genügt.

Halluzinationen und Verlässlichkeit im Inhalt

Auffällige Halluzinationsmuster zeigen die Protokolle nicht. DeepSeek V3.1 671B wirkt insgesamt eher wie ein Modell, das lieber etwas weniger Tiefgang liefert, als mit erfundenem Selbstbewusstsein in die Wand zu fahren. Das ist eine vernünftige Form von Vorsicht. Sie kostet mitunter Brillanz, rettet aber Vertrauen.

Datenschutz und Datenhoheit

Die Datenschutzlage ist für europäische Unternehmen der Punkt, an dem der günstige Preis plötzlich teuer wirken kann. Laut Provider Card sitzt DeepSeek in Hangzhou, verarbeitet API-Anfragen in China und unterliegt chinesischem Recht einschließlich PIPL, CSL und DSL. Für Nutzer aus Deutschland und der EU bedeutet das: Daten verlassen den europäischen Rechtsraum und fallen in eine Jurisdiktion, in der staatliche Zugriffsrechte weiter reichen, als viele Compliance-Abteilungen akzeptieren können.

Das berechnete Sovereign Risk liegt bei HIGH. Die Begründung ist nicht spekulativ, sondern dokumentiert: DeepSeek ist ein chinesisches Unternehmen; zusätzlich verweist die Card auf das National Security Law und die Warnung des BSI vom 04.02.2025 vor dem Einsatz des DeepSeek-Cloud-Dienstes. Ein GDPR-DPA ist nicht verfügbar. Für Unternehmen, die DSGVO-konform mit personenbezogenen Daten arbeiten müssen, ist das kein Detail, sondern ein potenzielles Ausschlusskriterium. Zur Datenspeicherung nennt die Card -1 Tage, also keine verlässlich ausgewiesene Aufbewahrungsfrist. Wer dieses Modell in Europa einsetzen will, sollte es nur mit Daten tun, deren Souveränitätsrisiko man bewusst tragen kann. Alles andere wäre naiv, und Naivität ist im Datenschutz selten ein günstiger Zustand.

Fazit

DeepSeek V3.1 671B ist ein bemerkenswert günstiger Cloud-Open-Weights-Generalist mit klarer Instruct-Handschrift und einer MoE-Architektur, die aus rund 37 Milliarden aktiven Parametern erstaunlich viel herausholt. Es ist stark bei toolnahen Aufgaben, überzeugend in kulturell sensibler Textbearbeitung, ordentlich bis gut in Content-Transformation und solide in Code-Analysen, solange man es nicht mit der Rolle eines Security-Auditors verwechselt. Seine Schwächen liegen in dokumentarischer Disziplin, argumentativer Tiefe und dort, wo mehrere harte Anforderungen gleichzeitig erfüllt werden müssen. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber nichts, als sich zu blamieren.

Die Empfehlung fällt deshalb zweigeteilt aus. Für kostenbewusste Teams, die ein schnelles, stabiles und breit einsetzbares Modell für technische Assistenz, strukturierte Transformation und allgemeine Arbeitslast suchen, ist DeepSeek V3.1 671B ein ernstzunehmender Kandidat. Für Security-kritische Reviews, hochwertige Endredaktion in mehreren Sprachen und datenschutzsensible Unternehmensprozesse ist Vorsicht geboten. Fachlich ist es gut genug, um nützlich zu sein. Regulatorisch und in der Feinarbeit ist es nicht gut genug, um sorglos zu sein.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.