LLM Model Review
· Instruction-Tuned
Mit einem Gesamtscore von 70.46% liefert Qwen 3.5 9B (UD-Q6_K_XL) genau die Art Leistung, die man sich von einem dichten 9B-Generalisten der Edge-Klasse erhofft: breit einsetzbar, oft erstaunlich reif, aber nicht frei von Schrammen. Als Generalist ohne Fachspezialisierung, in der Size Class Edge und auf Dense-Architektur gebaut, muss dieses Modell nicht alles brillant können. Es muss über die ganze Breite tragen. Genau das gelingt ihm meist, mit auffallender Stärke bei inhaltlicher Adaption und solider Logik. Der Speed-Profile-Badge Interactive Content Adapter passt deshalb verblüffend gut: Dieses Modell fühlt sich am wohlsten, wenn es Material umarbeitet, strukturiert und sprachlich in Form bringt, weniger wenn es als Sicherheitsprüfer oder knallharter Format-Exekutor auftreten soll. Sovereign Risk: HIGH — die Gewichte stammen von Alibaba Cloud aus China; bei lokalem Betrieb entfällt zwar der laufende Datentransfer zu einem chinesischen Provider, die Provenienz bleibt für sensible Beschaffungsentscheidungen dennoch relevant.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 1/43 | Sporadisch | Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Bei einem lokalen Edge-Modell ist das kein API-Rauschen, sondern ein Hinweis darauf, dass das Setup am Hardware-Limit arbeitet oder einzelne Aufgaben das System an die Decke drücken. |
| P95-Antwortzeit | 86.77 s | Problematisch | Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. Für interaktive Nutzung ist das spürbar zu lang, selbst wenn der Mittelwert freundlicher wirkt. |
Architektur und Charakter: Generalist mit angezogener Handbremse
Die Einordnung General, Thinking-Optional ist hier keine Fußnote, sondern der Schlüssel zum Verständnis. Qwen 3.5 9B (UD-Q6_K_XL) ist kein Coder-Skalpell und kein fest verdrahtetes Reasoning-Monster. Es ist ein Allrounder, der prinzipiell einen erweiterten Denkmodus unterstützt, im Benchmark aber bewusst im Standardmodus lief. Das ist methodisch sauber. Es misst das Verhalten, das Nutzer ohne Spezialkonfiguration tatsächlich bekommen.
Gerade deshalb ist das Ergebnis interessant. Das Modell wirkt in vielen Aufgaben klüger, als seine 9 Milliarden Parameter vermuten lassen. Es denkt oft sauber genug, schreibt meist kontrolliert und fällt nicht durch wilde Halluzinationen auf. Gleichzeitig merkt man ihm an, dass der nicht aktivierte Thinking-Modus eine Art Sicherheitsnetz bleibt, das hier ungenutzt im Schrank liegt. Bei Aufgaben mit mehreren simultanen Bedingungen, bei Security-Tiefe oder bei besonders langen Argumentationsketten reicht das Basismodell weit, aber nicht immer ganz bis zum Ende.
Geschwindigkeit und lokaler Einsatz
Qwen 3.5 9B (UD-Q6_K_XL) wurde lokal auf einem Apple Silicon M4 mit 24GB Unified Memory (Shared RAM/VRAM) evaluiert. Das ist für ein Edge-Modell die relevante Bühne. Mit 34.32 Tokens pro Sekunde ist es schnell genug, um sich interaktiv anzufühlen, aber nicht so schnell, dass man seine gelegentlichen Latenzspitzen ignorieren könnte. Der Badge Interactive Content Adapter sagt im Kern: Dieses Modell ist eher der fleißige Redakteur als der hektische Kommandozeilen-Sprinter. Es eignet sich für Umschreiben, Strukturieren, Doku-Arbeit und längere Textaufgaben im Dialog. Für echt zeitkritische Agentenketten mit engem Reaktionsfenster wirkt das Tempo dagegen nur bedingt komfortabel.
Wichtig ist der Hardware-Kontext. Ein 9B-Dense-Modell in hochwertiger Quantisierung sitzt auf dem Testsystem noch in einer vernünftigen Zone. Das Swapping-Risiko großer Brocken bleibt begrenzt, ganz verschwunden ist es aber nicht. Der einzelne Timeout bei insgesamt 43 Tests ist deshalb kein Schönheitsfehler, sondern ein kleiner Warnblinker: Das Modell läuft grundsätzlich passend für seine Klasse, aber ohne viel thermische oder speicherseitige Reserve.
Positiv fällt die Token-Ökonomie auf. Über alle budgetierten Module bleibt Qwen 3.5 9B (UD-Q6_K_XL) im erwartbaren Rahmen. Kein Modul schießt textlich aus der Kurve. Für ein lokales Modell heißt das schlicht: keine unnötige Selbstverlängerung, also auch keine künstlich aufgeblasene Wartezeit.
Reasoning und Logik: vernünftig, aber nicht majestätisch
Mit 70.73% im Bereich logisches Schlussfolgern liegt Qwen 3.5 9B (UD-Q6_K_XL) in einer respektablen Zone. Die qualitative Auswertung zeigt ein Modell, das die eigentliche Logik in zentralen Aufgaben meistens versteht. Im vorliegenden Metakognitionsprotokoll zum klassischen Wächterrätsel landet es sauber bei der richtigen Lösung, erklärt die Doppelverneinung korrekt und bleibt sprachlich präzise auf Deutsch. Das ist die gute Nachricht.
Die schlechtere Nachricht ist stilistischer und struktureller Natur. Das Modell neigt dazu, alternative Formulierungen oder Nebenpfade anzureißen und dann nicht elegant aufzulösen. Im Protokoll sagt es sinngemäß selbst: Hier wird es komplizierter. Solche Momente sind kein Denk-Crash, aber sie kosten Vertrauen. Wer ein logisches Problem erklärt, sollte nicht mitten im Satz mit der Stirn runzeln.
Dass der Benchmark den optionalen Thinking-Modus nicht aktiviert hat, ist hier zentral. Dieses Modell kann grundsätzlich tiefer ausgreifen. Im Standardmodus zeigt es jedoch eher bodenständiges statt luxuriöses Denken. Für Alltagslogik, Struktursynthese und begründete Antworten reicht das oft gut. Für heikle mehrstufige Entscheidungen, bei denen ein falscher Zwischenschritt später alles vergiftet, sollte man die Antworten prüfen. Qwen denkt ordentlich. Es denkt nicht unfehlbar.
Code Quality und Security: kompetent, aber mit blinden Flecken
Mit 70.8% in Code Quality präsentiert sich Qwen 3.5 9B (UD-Q6_K_XL) als brauchbarer technischer Generalist, nicht als forensischer Security-Spezialist. Das qualitative Protokoll ist in dieser Hinsicht aufschlussreich. In einer PHP-Sicherheitsanalyse erkennt das Modell die großen Brocken zuverlässig: SQL Injection, Klartext-Passwörter, Path Traversal, Session-Probleme, IDOR, CSRF, Header-Injection. Das ist keine Kleinigkeit. Viele kleine Modelle scheitern schon daran, die offensichtlichen Löcher sauber zu benennen.
Der Haken liegt in der Tiefe und in der Priorisierung. Das Modell findet 13 Schwachstellen, während der Referenzstandard 19 auflistet. Sechs fehlende Punkte in einem Security-Audit sind kein akademischer Abstand, sondern ein echter Risikofaktor. Hinzu kommt, dass Qwen mehrere kritische Befunde zu mild einstuft. Wenn ein IDOR-Fall potenziell zur Admin-Übernahme führt, ist „hoch“ eben zu höflich. In der Sicherheitswelt ist falsche Zurückhaltung keine Tugend.
Auch die Fixes bleiben oft auf Konzeptniveau. Das ist formal zulässig, weil die Aufgabe kurze Code-Schnipsel oder Konzepte erlaubte. Praktisch heißt es aber: Das Modell sagt meist richtig, was getan werden sollte, seltener präzise genug, wie man es direkt einbaut. Für Entwickler mit Erfahrung ist das akzeptabel. Für Teams, die auf Copy-and-paste-nahe Hilfen hoffen, ist es zu dünn.
Auffällig ist außerdem die leichte Formatschwäche im Detail. Im Security-Tabellenoutput tauchte ein kleiner Markdown-Fehler in der Spaltendefinition auf. Kein Drama, aber symptomatisch. Dieses Modell ist bei strukturierter Technikarbeit verlässlich genug, jedoch nicht mit dem unerbittlichen Formalismus eines spezialisierten Code-Modells ausgestattet.
Unterm Strich ist das Security-Profil zweigeteilt: gute Erkennung der Hauptprobleme, spürbarer Abfall bei Vollständigkeit, Severity-Kalibrierung und Exploit-Tiefe. Für Code-Review im Alltag brauchbar. Für ernsthafte Security-Freigaben nicht ausreichend ohne menschliche Gegenkontrolle. Wer dieses Modell als AppSec-Instanz einsetzt, verwechselt Taschenlampe mit Flutlicht.
Content Transformation: hier spielt es seine beste Karte
Mit 80.73% liefert Qwen 3.5 9B (UD-Q6_K_XL) seine stärkste Benchmark-Disziplin im Bereich Content Transformation. Das ist kein Zufall, sondern deckt sich sauber mit seinem Speed-Badge. Sobald Rohmaterial überarbeitet, in eine neue Form gebracht oder redaktionell aufgeladen werden soll, wirkt das Modell wach, organisiert und erstaunlich treffsicher.
Das qualitative Protokoll zur Umwandlung eines trockenen 2FA-Tutorials in ein YouTube-fähiges Video-Skript zeigt genau diesen Charakter. Qwen identifiziert die fehlenden Elemente knapp und richtig, baut eine vollständige Zeitstruktur von 00:00 bis 05:00, integriert Screen-Anmerkungen, B-Roll, Musik-Cues, Hooks, Pattern Interrupts, CTA und sogar ein präzise beschriebenes Easter Egg. Vor allem aber tut es das nicht mechanisch, sondern mit einem Gespür für Formatlogik. Das Ergebnis wirkt laut Judge „production-ready“. Dieses Urteil kommt nicht inflationär zustande.
Bemerkenswert ist auch die technische Stimmigkeit. Die 2FA-Schritte bleiben korrekt, die Dramaturgie ist realistisch, die Sprache bleibt klar deutsch und spoken-word-tauglich. Genau hier zeigt sich die Stärke eines guten Generalisten: nicht maximal brillant in einer Einzeldisziplin, aber sehr stark darin, Anforderungen aus Inhalt, Ton, Struktur und Medium gleichzeitig zusammenzuhalten.
Ganz ohne Kratzer ist der Auftritt nicht. Das Modell neigt zur Übererfüllung. Im Beispiel wächst das Skript über die gewünschte Wortspanne hinaus, weil Qwen Details großzügig ausrollt, statt hart zu kürzen. In Content-Arbeit ist das meist die angenehmere Sünde. Man streicht lieber, als dass man fehlende Dramaturgie nachträglich zusammensucht. Trotzdem bleibt es eine Form von Disziplinproblem. Wer enge Produktionsraster hat, muss Grenzen klar setzen.
UX Writing und Dokumentationsqualität: nützlich, aber nicht immer messerscharf
Die Modulwerte von 65.55% für UX Writing und 65.7% für Documentation Quality markieren die Zone, in der Qwen 3.5 9B (UD-Q6_K_XL) verlässlich hilfreich ist, ohne Glanzlichter zu setzen. Das passt zum Gesamtbild. Das Modell kann formulieren, erklären und strukturieren. Was ihm öfter fehlt, ist die letzte editorische Schärfe.
Der Befund aus den anderen Protokollen stützt dieses Bild. Qwen schreibt in der Regel sauber, grammatikalisch stabil und aufgabenorientiert. Es driftet nicht sinnlos ab, bleibt meist in der richtigen Sprache und produziert keine auffälligen Fantasiekonstrukte. Gleichzeitig ist seine Schreibe nicht immer so präzise verdichtet, wie man es für exzellente Doku oder pointiertes UX-Microcopy erwarten würde. Es erklärt oft eher solide, als dass es verdichtet. Das ist ein Unterschied, den man im Alltag sofort merkt, wenn knapper Raum plötzlich teuer wird.
Für interne Doku, erste Entwürfe, Umformulierungen und verständliche Zwischenschritte ist das Modell gut brauchbar. Für finale Nutzertexte mit hohem Anspruch an Rhythmus, Tonökonomie und Produktfeinheit bleibt menschliche Redaktion die bessere Instanz.
Cultural Intelligence: ordentlich, aber nicht ganz elegant
Im Bereich Cultural Intelligence kommt Qwen 3.5 9B (UD-Q6_K_XL) auf 65.6%. Das ist kein Absturz, aber auch kein Zeichen besonderer kultureller Feinmotorik. Das Protokoll zur Entgiftung einer toxischen Stellenanzeige illustriert den Punkt gut. Das Modell entfernt problematische Begriffe, schreibt durchgehend auf Deutsch, kippt aggressive Formulierungen in professionellere Sprache und versucht, Geschlechterinklusion herzustellen. Inhaltlich ist das im Kern richtig.
Doch es fehlt die Eleganz der besten Lösungen. Statt genuinely neutraler Substantive greift Qwen teils auf maskulin codierte Begriffe zurück und versucht das mit einem Zusatz wie „unabhängig vom Geschlecht“ zu glätten. Das ist funktional, aber nicht state of the art. Man spürt den guten Willen und zugleich die leichte Unsicherheit in der Ausführung.
Hinzu kommt eine gewisse Neigung zur Expansion. Wo die Aufgabe eine knappe Umschreibung verlangt, ergänzt das Modell eigene Akzente und wird länger als nötig. Gerade in sensibler, inklusiver Kommunikation ist Kürze oft keine Nebensache, sondern Teil der Professionalität. Wer Diversity-Sprache erst mit Zusatzschleifen absichert, hat den Kern noch nicht ganz verinnerlicht.
CLI- und Tool-Nähe: ausreichend, nicht herausragend
Der CLI-Benchmark liegt bei 77.78% und damit erfreulich höher als manche textlastigen Disziplinen. Das spricht dafür, dass Qwen 3.5 9B (UD-Q6_K_XL) strukturierte technische Arbeitsanweisungen grundsätzlich gut verarbeiten kann. Gleichzeitig bleibt das Tooling-Profil insgesamt begrenzt, was sich auch in den flankierenden Tool-Werten des Leaderboards niederschlägt. Dieses Modell ist kein geborener Orchestrator und kein obsessiver Befehlsgenerator.
Für einfache Shell-Aufgaben, pragmatische Kommandos und nachvollziehbare Technikschritte ist es tauglich. Wo exaktes Format-Matching, lange Agentenketten oder knallharte Ausfallsicherheit gefordert sind, endet die Bequemlichkeit. Das ist kein Makel gegen seine Kategorie. Ein Edge-Generalist darf kleiner denken. Man sollte ihn nur nicht in eine Rolle drücken, für die größere oder spezialisierte Modelle gebaut wurden.
Datenschutz und Datenhoheit
Bei diesem Modell ist der wichtigste Punkt die Trennung zwischen Gewichtsherkunft und tatsächlichem Betrieb. Die Gewichte stammen von Alibaba Cloud aus China, das berechnete Sovereign Risk liegt daher bei HIGH. Grund ist nicht Spekulation, sondern Jurisdiktion: Alibaba unterliegt chinesischem Recht, einschließlich PIPL, CSL, DSL und dem sicherheitspolitisch relevanten Umfeld des National Security Law. Für europäische Unternehmen wäre ein Cloud-Betrieb über Alibaba deshalb ein Drittlandtransfer-Risiko ohne EU-Angemessenheitsbeschluss, auch wenn laut Vendor Card ein GDPR-DPA verfügbar ist und Alibaba weltweit regionale Rechenzentren anbietet. Die öffentlich ausgewiesene Aufbewahrungsdauer für API-Daten ist nicht klar benannt.
Im hier getesteten lokalen Einsatz relativiert sich das operative Datenschutzrisiko erheblich, weil keine Prompt-Daten an einen Cloud-Provider gesendet werden. Für Beschaffung und Governance bleibt die Provenienz der Weights aber ein valider Entscheidungsfaktor. Wer in streng regulierten Umgebungen arbeitet, sollte genau diese Unterscheidung sauber dokumentieren: lokale Ausführung gut, Herkunft der Gewichte dennoch nicht neutral.
Fazit
Qwen 3.5 9B (UD-Q6_K_XL) ist ein erstaunlich erwachsener Edge-Generalist mit klar erkennbarem redaktionellem Talent. Seine beste Seite zeigt er dort, wo Inhalte umgebaut, verdichtet, neu strukturiert oder in mediengerechte Formen überführt werden sollen. Reasoning ist gut genug für viele Praxisfälle, Code-Qualität ordentlich, CLI-Arbeit brauchbar. Die Schwächen sitzen an den Stellen, an denen Vollständigkeit und Unnachgiebigkeit zählen: Security-Tiefe, Severity-Einstufung, absolute Formatpräzision und lange Ausreißer bei der Antwortzeit. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig Tiefe, als falsche Gewissheit.
Für den produktiven Einsatz heißt das: sehr gutes Modell für lokale Wissensarbeit, Content-Transformation, Dokumentenbearbeitung, allgemeine Assistenz und technische Erstentwürfe. Weniger geeignet als alleinige Instanz für Sicherheitsanalysen, strikt überwachte Agentenabläufe oder Aufgaben, bei denen jeder fehlende Punkt teuer wird. Die Apache-2.0-lizenzierten Open Weights stammen von Alibaba; im lokalen Betrieb ist das cloud-spezifische Datenschutzrisiko deutlich reduziert, die Weights-Provenienz bleibt wegen chinesischer Jurisdiktion dennoch ein Governance-Thema. Qwen 3.5 9B (UD-Q6_K_XL) ist damit kein Held für jede Schlacht, aber ein sehr brauchbarer Laptop-Allrounder mit Profil. Und Profil ist in dieser Klasse mehr wert als ein weiterer glatter Mittelwert.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.