Qwen 3.6 35B-A3B MTP UD-Q8_K_XL · LLM Model Review

Mit einem Gesamtscore von 74.35% liefert Qwen 3.6 35B-A3B MTP UD-Q8_K_XL genau das, was man von einem gut abgestimmten Workstation-Generalisten mit MoE-Architektur erwarten darf: viel Tempo, ordentliches technisches Urteilsvermögen und nur wenige grobe Ausfälle, aber keine universelle Eleganz. Der Speed-Profile-Badge „Real-Time DevOps Expert“ passt erstaunlich gut, weil dieses Modell vor allem dort überzeugt, wo strukturierte, operative Antworten gefragt sind. Sein Charakter ist klar: eher präziser Monteur als brillanter Essayist. Sovereign Risk: HIGH — Entwickler und Provider-Kontext liegen im chinesischen Rechtsraum; dort greifen NSL, PIPL, CSL und DSL, was für europäische Unternehmen ein reales Souveränitäts- und Drittlandtransfer-Thema ist.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	39.97 s	Akzeptabel	Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar.

Architektur und Einordnung

Die Metadaten Speculative-Decoding, MTP, MoE sind bei diesem Modell keine dekorativen Etiketten, sondern erklären einen guten Teil seines Verhaltens. Qwen 3.6 35B-A3B MTP UD-Q8_K_XL ist als Generalist eingeordnet, liegt in der Workstation-Klasse und nutzt eine Mixture-of-Experts-Architektur. Entscheidend ist dabei nicht die Gesamtgröße von 35 Milliarden Parametern, sondern die aktive Kapazität von 3 Milliarden Parametern. Das ist der faire Maßstab. Wer bei „35B“ automatisch Frontier-Erwartungen anlegt, misst am falschen Lineal.

Gerade deshalb ist das Ergebnis bemerkenswert. Das Modell spielt nicht den schweren Universalhammer, sondern eher ein fein sortiertes Werkzeugset: pro Token werden nur Teile des Netzes aktiv, was Effizienz bringt, aber nicht automatisch intellektuelle Übermacht. Dazu kommt das MTP-Training, also Multi-Token-Prediction. Vereinfacht gesagt: Das Modell ist dafür vorbereitet, beim Generieren mehrere nächste Schritte vorauszuahnen, was speculative decoding beschleunigt. Solche Architekturen müssen ihre Qualität nicht nur in der Antwort, sondern auch in der Taktung beweisen. Qwen tut das größtenteils überzeugend.

Geschwindigkeit und Praxisprofil

Auf dem lokalen Referenzsystem NVIDIA DGX Spark (GB10 Grace Blackwell Superchip, ~115 GB Unified Memory) läuft dieses Modell mit 66.84 Tokens pro Sekunde. Für ein lokales Workstation-Modell mit MoE-Struktur und MTP-Beschleunigung ist das ein starkes, praxisnahes Resultat. Der Badge „Real-Time DevOps Expert“ bedeutet in diesem Kontext: nicht bloß hohe Rohgeschwindigkeit, sondern ein Profil, das für interaktive technische Arbeit taugt, also Shell-Hilfe, Sicherheitsanalysen, Code-Reviews und dokumentationsnahe Aufgaben, ohne dass der Nutzer in Wartefenstern alt wird.

Wichtig ist die richtige Lesart der Architektur. MoE spart aktive Rechenlast, verlangt aber Speicherbandbreite und sauberes Routing. MTP wiederum zahlt sich nur aus, wenn Laufzeitumgebung und Quantisierung gut zusammenspielen. Hier scheint das Setup zu sitzen. Das Testsystem wird nicht an die 115-GB-Grenze geprügelt, und vor allem gibt es keine Timeout-Spuren, die auf ein Speicherlimit oder instabiles Swapping hindeuten würden. Das ist für ein lokales Open-Weights-Modell keine Kleinigkeit, sondern die Grundvoraussetzung dafür, dass man es in echte Workflows lässt.

Auch bei der Token-Ökonomie bleibt Qwen diszipliniert. Kein einziges Modul überschreitet den erwarteten Verbosity-Rahmen. Das Modell verhält sich token-ökonomisch. Für ein lokales Modell heißt das weniger API-Kosten als vielmehr: weniger unnötige Laufzeit, weniger Leerlauf, weniger aufgeblähte Antworten. Es schreibt nicht mit dem Laubbläser.

Reasoning und Logik

Mit 76.5% im logischen Schlussfolgern gehört Reasoning zu den klaren Stärken. Die vorliegenden Judge-Protokolle zeigen ein Modell, das Aufgaben nicht nur richtig löst, sondern seine Lösung nachvollziehbar aufzieht. Beim klassischen Wächter-Rätsel analysiert es beide Szenarien sauber, kommt korrekt auf die Türlogik und erklärt den Mechanismus verständlich. Was fehlt, ist nicht die Logik, sondern der letzte Schliff: weniger formale Eleganz als im Ideal, weniger Verallgemeinerung, weniger didaktische Politur.

Das ist eine wichtige Unterscheidung. Manche Modelle irren schnell, aber hübsch. Qwen argumentiert eher robust als glanzvoll. Es liefert tragfähige Denkketten, ohne daraus eine kleine Vorlesung in formaler Logik zu machen. Für die Praxis ist das oft der bessere Deal.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den Tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 76.5%, was dem Niveau anderer Modelle entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.

Das ist kein akademisches Detail. In Agenten-Setups, bei Evaluationspipelines oder überall dort, wo formale Ausgabeverträge zählen, ist eine solche Weigerung kein Kavaliersdelikt. Das Modell denkt offenbar besser, als es sich formatieren lassen will. Charmant ist das nicht.

Code Quality und Security

Mit 71.08% in Code Quality liegt Qwen oberhalb des soliden Mittels, und die Sicherheitsanalyse zeigt, warum. Das Modell identifiziert im PHP-Audit 15 Schwachstellen, erläutert die problematischen Stellen technisch sauber und liefert brauchbare Fix-Richtungen. Besonders stark ist die Behandlung impliziter Sicherheitsprobleme: Mail-Header-Injection, Session Fixation, IDOR-Ketten, Type-Juggling bei API-Schlüsseln und Path Traversal werden nicht bloß benannt, sondern mit realistischen Angriffspfaden verbunden. Das ist mehr als Etikettenkleben.

Gerade im Security-Bereich wirkt Qwen erwachsen. Es nennt SQL-Injections, Plaintext-Passwörter, Admin-Cookie-Bypass und schwache Token-Logik zuverlässig. Die Erklärungen sind präzise genug, dass ein Entwickler damit arbeiten kann. Das ist die gute Nachricht.

Die schlechte Nachricht ist die Vollständigkeit. Im Vergleich zur Referenz fehlen mehrere relevante Punkte: reflektiertes XSS in der Begrüßung, fehlender CSRF-Schutz, hartkodierte Secrets, Root-Datenbankzugang ohne Passwort und fehlende Ablaufzeit für Reset-Tokens. Das ist kein kosmetischer Verlust. In einem echten Audit bedeutet ein solcher blinder Fleck, dass das Modell den Rauch sieht, aber nicht jeden Brandherd. Zusätzlich kalibriert es manche Schweregrade etwas zu vorsichtig, etwa beim Path Traversal. Sicherheit lebt nicht nur von Treffern, sondern auch von Priorisierung.

Auffällig ist zudem die Formdisziplin. Die Aufgabe verlangte eine extrem knappe Tabellendarstellung. Qwen liefert zwar eine korrekte Markdown-Tabelle, ergänzt sie aber um narrative Vertiefung. Das ist inhaltlich hilfreich, folgt aber der Instruktion nicht perfekt. In einem redaktionellen Text wäre das ein Stilplus. In einem Benchmark ist es schlicht ein Regelverstoß mit Samthandschuhen.

CLI und operative DevOps-Tauglichkeit

Der CLI-Wert von 84.34% unterstreicht, warum der Speed-Badge nicht aus der Luft gegriffen ist. Qwen ist stark in operativen, zielgerichteten Aufgaben, in denen Struktur und technische Konsequenz wichtiger sind als sprachliche Finesse. Das Modell scheint Shell-nahe Anforderungen, konkrete Schritte und technische Arbeitslogik gut zu erfassen. In der Praxis ist das häufig der produktivere Skill als große Rhetorik.

Zusammen mit dem hohen Reasoning-Wert ergibt sich ein plausibles Bild: Dieses Modell ist kein philosophischer Flaneur, sondern ein brauchbarer Werkbank-Assistent. Wer Befehlslogik, Sicherheitsdenken und saubere technische Synthese braucht, bekommt hier Substanz.

Documentation Quality

Mit 77.12% gehört Dokumentationsarbeit zu den besten Disziplinen des Modells. Das passt zum Gesamtprofil. Qwen strukturiert Informationen ordentlich, hält inhaltliche Linien zusammen und verliert sich nicht in überflüssigem Füllmaterial. Gerade für interne Dokus, technische Erläuterungen oder strukturierte Handreichungen ist das wertvoll. Leser bekommen meist Text, der lesbar bleibt und nicht nur korrekt klingt.

Die qualitative Tendenz ist klar: Qwen kann erklären, ohne sofort zu dozieren. Es hat genug fachliche Gravitas, um technische Inhalte plausibel zu ordnen, aber nicht immer den letzten editorischen Zug zur Exzellenz. Das ist kein Verriss. Es ist die präzise Differenz zwischen „gut einsetzbar“ und „maßstabsetzend“.

UX Writing und Microcopy

Auch im UX-Writing schlägt sich Qwen mit 73.11% respektabel. Die Judge-Protokolle bescheinigen eine funktionale Zweischritt-Struktur, eine brauchbare Optimierungstabelle und ein solides Verständnis psychologischer Prinzipien. Das Modell kann Mikrotexte also nicht nur umschreiben, sondern begründen, warum eine Variante besser funktioniert. Das ist mehr, als viele Technikmodelle in diesem Feld zustande bringen.

Doch der Abstand zur Spitzengruppe ist sichtbar. Es fehlt an quantitativer Beweisführung, an expliziten Kennzahlen und an der Art akademischer Referenzierung, die Aussagen zusätzlich verankert. Vor allem aber bleibt die Dramaturgie etwas nüchterner als ideal. Qwen schreibt brauchbar und kompetent, aber selten mit jener kontrollierten Schärfe, die aus guter UX-Sprache eine kleine Verhaltensmaschine macht. Man spürt das Ingenieurhafte. Manchmal ist das gut. Manchmal klingt es nach Werkzeugkasten statt Markenstimme.

Content Transformation: stark gebaut, dann über die eigene Schnur gestolpert

Mit 75.65% wirkt der Modulwert auf den ersten Blick ordentlich. Der qualitative Befund ist jedoch härter als die Zahl. In der problematischen Video-Skript-Aufgabe baut Qwen eine strukturell gute Antwort: kompakte Analyse, saubere Dreiteilung, Timing-Marker, Produktionshinweise, Retention-Hooks, sogar ein integriertes Easter Egg. Der inhaltliche Bauplan stimmt also. Nur leider spricht das Modell dann die falsche Sprache.

Das ist der eigentliche Knackpunkt. Die Aufgabe verlangte ausdrücklich Deutsch, das Modell lieferte aber im Kern Englisch. Für einen Nutzer ist das kein Schönheitsfehler, sondern Nicht-Erfüllung. Ein Kunde bestellt kein deutsches Skript, um anschließend ein englisches Storyboard umzuschreiben.

In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 900 Wörtern um 38%. Das System verhängte einen automatischen Abzug von 20% beziehungsweise 15.44 Punkten. Die inhaltliche Qualität der Antwort ist damit irrelevant — die Strafe greift unabhängig davon.

Das Modell ignorierte zudem die explizite Sprachanweisung und antwortete auf Englisch. Das ist kein technischer Defekt, sondern eine Instruction-Following-Schwäche. In produktiven Umgebungen mit fixer Zielsprache ist das ein klares Einsatzrisiko.

Hier zeigt sich ein strukturelles Problem unter kombinierten Anforderungen. Sprache, Länge, Format und Ton gleichzeitig sauber zu halten, gelingt nicht durchgängig. Qwen kann den kreativen und produktionellen Teil durchaus. Aber wenn mehrere harte Leitplanken gleichzeitig gesetzt werden, fällt zuerst die Instruktions-Compliance ab. Das ist kein Totalschaden. Es ist ein Warnhinweis in Leuchtschrift.

Cultural Intelligence

Mit 67.84% ist Cultural Intelligence die schwächste reguläre Disziplin des Modells. Das fällt nicht deshalb ab, weil Qwen toxische oder exkludierende Sprache nicht erkennt. Im Gegenteil: Das Umschreiben einer problematischen Stellenausschreibung gelingt funktional gut. Toxische Begriffe werden entfernt, geschlechtsbezogene Verzerrungen geglättet, der Text bleibt sauber deutsch und professionell.

Was fehlt, ist Feingefühl in der Tonlage. Die Referenz formuliert einladender, wärmer und motivational stärker. Qwen trifft die Aufgabe, aber nicht immer ihren gesellschaftlichen Unterton mit voller Präzision. Statt eines offenen, anschlussfähigen Recruitingsounds entsteht stellenweise ein nüchterner, etwas assertiver Text. Das ist nicht falsch. Es ist nur weniger klug als nötig. Wer inklusive Sprache nur technisch neutralisiert, hat die halbe Arbeit gemacht.

Halluzinationen und Verlässlichkeit der Inhalte

Auffällig positiv ist, dass die qualitativen Protokolle kaum Hinweise auf echte Halluzinationsprobleme liefern. Die Schwächen liegen eher in Auslassungen, konservativer Priorisierung oder Instruktionsverstößen als im freien Erfinden. Das ist im Alltag Gold wert. Ein Modell, das lieber einen Punkt nicht nennt, als drei falsche zu erfinden, ist für technische Arbeit meist die bessere Grundlage. Vollständig ist das nicht. Aber es ist berechenbarer.

Datenschutz und Datenhoheit

Für das hier getestete lokale Open-Weights-Setup gibt es keinen aktiven Cloud-Provider im Ausführungspfad. Das ist der gute Teil, denn auf dem Testsystem bleiben die Eingaben lokal und verlassen die Maschine nicht. Relevant bleibt dennoch die Provenienz der Gewichte: Das Modell stammt von Alibaba Group / Qwen Team aus China, die Weights-Provenienz ist mit MEDIUM bewertet. Begründung: öffentlich verfügbare Open Weights aus chinesischer Herkunft; bei der Risikoeinschätzung sind NSL und der chinesische Rechtsraum mitzudenken. Zur im Benchmark mitgelieferten Provider-Card gilt deshalb nur eingeschränkt: Sie beschreibt den DashScope-/Alibaba-Cloud-Kontext unter China (PIPL/CSL/DSL) mit GDPR DPA verfügbar, aber für dieses lokale Deployment ist das kein direkter Laufzeitpfad.

Fazit

Qwen 3.6 35B-A3B MTP UD-Q8_K_XL ist ein bemerkenswert stimmiges lokales Workstation-Modell. Es nutzt seine 3 Milliarden aktiven Parameter in der MoE-Architektur effizient, spielt das MTP-/Speculative-Decoding-Profil glaubwürdig aus und erreicht mit 74.35% eine Leistung, die man ernst nehmen muss. Seine Stärken liegen klar in Reasoning, CLI-naher technischer Arbeit, Dokumentation und Sicherheitsanalyse. Seine Schwächen liegen in Instruktions-Compliance unter Mehrfachconstraints, in punktueller Unvollständigkeit bei Security-Audits und in einer kulturell eher technischen als feinsinnigen Sprachführung.

Für den Einsatz heißt das: sehr empfehlenswert als lokaler Assistent für DevOps, Code-Review, Sicherheits-Screening, technische Dokumentation und strukturierte Problemanalyse. Weniger geeignet ist es für Workflows, in denen Sprache, Format und Länge absolut vertragstreu eingehalten werden müssen, ohne dass ein Mensch noch einmal drübersieht. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig als zu viel. Als Werkzeug ist das vernünftig. Als Autopilot ist es noch einen Tick zu eigensinnig.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.