Qwen 3.5 9B (llama.cpp, UD-Q6_K_XL) · LLM Model Review

Mit einem Gesamtscore von 70.46% ist Qwen 3.5 9B (llama.cpp, UD-Q6_K_XL) kein Blender, sondern ein erstaunlich ernst zu nehmender Allrounder der Edge-Klasse. Der Speed-Profile-Badge Interactive Content Adapter passt gut: Dieses Modell ist weniger der rabiate Tool-Sprinter als ein anpassungsfähiger Schreiber, der aus mittelkomplexen Vorgaben oft erstaunlich viel herausholt. Als Generalist in der Edge-Klasse mit 9,0 Milliarden dichten Parametern trägt es die typische Last seiner Kategorie: breit einsetzbar, aber nicht immun gegen Präzisionsverluste bei Security, Formatdisziplin und längeren Denkketten. Sovereign Risk: HIGH — die Gewichte stammen von Alibaba Cloud in China; für lokale Nutzung reduziert das das operative Risiko deutlich, die Provenienz bleibt für sicherheitssensible Beschaffung aber ein relevanter Fakt.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	1/43	Sporadisch	Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden.
P95-Antwortzeit	86.77 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen.

Die Architektur-Einordnung ist hier wichtig. Qwen 3.5 9B gehört zur Klasse Thinking-Optional. Das bedeutet: Ein erweiterter Denkmodus existiert grundsätzlich, war im Benchmark aber bewusst nicht aktiviert. Gemessen wurde also das Verhalten, das Nutzer ohne Spezialkonfiguration tatsächlich bekommen. Wenn so ein Modell dennoch gelegentlich langsamer wirkt als ein striktes Instruct-Modell, ist das keine Anomalie, sondern oft der Preis interner Tiefe. Nur: Tiefe entschuldigt keinen Tail von fast anderthalb Minuten. In fünf Prozent der Anfragen reißt Qwen den Arbeitsfluss spürbar auf.

Für ein lokales Edge-Modell auf einem Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) ist die reine Generierungsgeschwindigkeit von 34.32 Tokens/s dennoch ein gutes, praxistaugliches Signal. Das liegt klar im Bereich interaktiver Nutzung, ohne die 24-GB-Grenze des Testsystems grob zu reizen. Gerade bei dichten 9B-Modellen ist das relevant: Wer lokal arbeitet, will keine latent swap-gefährdete Diva, sondern ein Modell, das in den Speicher passt und dort bleibt. Genau das gelingt hier im Großen und Ganzen.

Der Charakter dieses Modells: breit begabt, nicht immer messerscharf

Qwen 3.5 9B ist als General-Modell richtig etikettiert. Es versucht nicht, sich als Spezialwerkzeug zu verkaufen. Stattdessen zeigt es die klassische Tugend eines guten Allrounders: Es kann in fast jedem Modul sinnvoll mitspielen, ohne irgendwo völlig auseinanderzufallen. Genau deshalb fällt aber auch jede Schwäche härter ins Gewicht. Ein Generalist darf in keinem Kernbereich blind sein.

Die zweite Achse, Thinking-Optional, erklärt ebenfalls viel. Im Standardmodus wirkt das Modell oft vernünftig, manchmal sogar elegant, aber nicht kompromisslos tief. Es denkt sichtbar genug, um Logikaufgaben zu tragen, bleibt dabei jedoch anfällig für kleine Schlenker, unnötige Umwege und gelegentliche Unsicherheit in der Darstellung. Man spürt gewissermaßen, dass unter der Haube mehr ginge. Nur wurde dieses Mehr hier nicht freigeschaltet.

Reasoning und Logik: korrekt, aber nicht ganz souverän

Im Logik-Modul erreicht Qwen 70.73%. Das ist für ein Edge-Modell respektabel, aber interessanter als die Zahl ist die Art, wie sie zustande kommt. In einem Metakognitions-Test zum klassischen Zwei-Wächter-Rätsel kommt das Modell auf die richtige Lösung, verwendet die geforderten <thought>-Tags sauber und arbeitet die Kernlogik korrekt heraus. Es versteht das Prinzip der doppelten Negation, prüft beide Fälle und landet zuverlässig bei der bekannten Gegenfrage.

Der Haken liegt in der Ausführung. Das Modell beginnt, alternative Formulierungen zu erkunden, verheddert sich kurz, signalisiert Unsicherheit und bricht diesen Nebenzweig dann halb zurückrudern ab. Das ist kein Denkfehler im engeren Sinn. Es ist ein Souveränitätsproblem. Ein gutes Reasoning-Modell darf Umwege gehen; ein überzeugendes Reasoning-Modell muss den Leser dabei nicht spüren lassen, dass es selbst kurz ins Stolpern geraten ist.

Gerade hier zeigt sich der Unterschied zwischen „Thinking-Optional“ im Standardmodus und echtem Tiefendenker-Verhalten. Qwen löst die Aufgabe, aber mit leicht flatternder Hand. Für Alltagslogik, Plausibilitätschecks und strukturierte Erklärungen reicht das gut. Für Aufgaben, bei denen jede Zwischenfolgerung sitzen muss, bleibt ein Rest von Vorsicht angebracht.

Code Quality und Security: brauchbar im Audit, zu löchrig für Selbstzufriedenheit

Im Code-Quality-Bereich steht Qwen bei 70.8%. Das ist keine schlechte Leistung. Es erkennt viele typische Schwachstellen, strukturiert sie in einer Markdown-Tabelle und schreibt auf Deutsch sauber und verständlich. Für ein Modell dieser Größe ist das ein echtes Leistungsmerkmal. Wer nur grobe Sicherheitsprobleme in Legacy-PHP oder ähnlich fragwürdigem Bestandscode identifizieren will, bekommt hier einen nützlichen ersten Durchgang.

Doch Security ist die Disziplin, in der „ganz ordentlich“ schnell gefährlich wird. Im vorliegenden Audit nennt das Modell 13 Schwachstellen, während die Referenz 19 erfasst. Das ist kein kosmetischer Abstand, sondern eine Lücke von rund einem Drittel. Unter den fehlenden oder unzureichend behandelten Punkten sind ausgerechnet Dinge, die in der Praxis weh tun: reflektiertes XSS in der Willkommensausgabe, schwache Reset-Token-Generierung, fehlende Ablaufzeiten für Tokens, hartkodierte Secrets und mangelhafte Cookie-Sicherheit in feinerer Auflösung.

Noch problematischer ist die Kalibrierung der Schweregrade. Qwen stuft mehrere kritische Probleme zu niedrig ein, etwa SQL-Injection im Reset-Fluss oder IDOR mit möglicher Kontoübernahme. Das ist der Unterschied zwischen „hier aufräumen“ und „hier brennt es“. Wer Security-Output priorisieren oder an Teams eskalieren will, braucht genau diese Schärfe. Qwen liefert sie nicht zuverlässig.

Die Fixes bleiben zudem oft auf Konzeptebene. Das genügt formal, weil die Aufgabe kurze Code-Schnipsel oder Konzepte zuließ. Für die Praxis ist es trotzdem schwächer als Antworten, die direkt belastbare Gegenmaßnahmen formulieren. Positiv ist immerhin, dass das Modell die fünf impliziten Schwachstellen tatsächlich adressiert und damit nicht nur die Etiketten der offensichtlichen Probleme einsammelt. Negativ bleibt, dass ein Security-Audit kein Feld für fast richtige Vollständigkeit ist. Sechs übersehene Lücken sind sechs Einfallstore zu viel.

Content Transformation: die eigentliche Parade-Disziplin

Hier zeigt Qwen seine beste Seite. Mit 80.73% ist das Modul nicht nur numerisch stark, es offenbart auch den Kerncharakter des Modells. Der Badge Interactive Content Adapter ist kein Zufall. Wenn eine Aufgabe aus Analyse, Umformung, Tonalität, Struktur und publikumsfähiger Ausarbeitung besteht, spielt Qwen plötzlich mit deutlich mehr Selbstverständlichkeit.

Im vorliegenden Beispiel eines YouTube-Tutorial-Skripts arbeitet das Modell die Schwächen des Ausgangsmaterials präzise heraus, liefert vollständige Timestamps, setzt Produktionshinweise sauber ein und denkt in Hook, Retention, CTA und Easter Egg. Besonders bemerkenswert: Es bleibt nicht an der Oberfläche. Visuelle Regiehinweise, Spoken-Word-Rhythmus, B-Roll, Musik-Cues und Interaktionspunkte greifen ineinander. Das ist nicht nur „Text generieren“, das ist redaktionelles Mitdenken.

Der Richter wertet einige Abweichungen von der Musterlösung sogar als Verbesserungen. Etwa die konkretere CTA oder die detailliertere Easter-Egg-Umsetzung. Das ist ein gutes Zeichen. Es zeigt, dass Qwen nicht bloß solide paraphrasiert, sondern in kreativen Umbauaufgaben eigenständig produktionsnahe Entscheidungen treffen kann.

Ganz ohne Makel bleibt das nicht. Die Antwort war mit grob 1.200 bis 1.400 Wörtern klar länger als der Zielkorridor von 600 bis 900 Wörtern. Inhaltlich schadet das der Qualität hier kaum. Operativ ist es trotzdem ein Hinweis: Wenn man das Modell machen lässt, macht es oft ein bisschen mehr, als man bestellt hat. In diesem Modul zahlt sich die Mehrarbeit aus. In engeren Produktionspipelines kann genau das zum Störfaktor werden.

Documentation Quality, UX Writing und Cultural Intelligence: solide, aber nicht mit leichter Hand

Die Modulwerte zeigen ein gemischtes, aber stimmiges Bild: Documentation Quality 65.7%, UX Writing 65.55%, Cultural Intelligence 65.6%. Das ist nicht schlecht. Es ist aber auch nicht der Bereich, in dem Qwen Charme in Präzision verwandelt.

Im Bereich Cultural Intelligence sieht man das gut. In einer Aufgabe zur Entgiftung einer toxischen Stellenanzeige entfernt das Modell problematische Begriffe, bleibt vollständig auf Deutsch und liefert eine grundsätzlich professionelle, inklusive Fassung. Der Richter kritisiert jedoch zu Recht die Methode. Statt wirklich genusneutraler Substantive wählt Qwen teils maskulin codierte Begriffe und korrigiert die Schieflage mit Zusätzen wie „unabhängig vom Geschlecht“. Das funktioniert technisch. Elegant ist es nicht. Es ist die sprachliche Version einer nachträglich angeschraubten Rampe.

Hinzu kommt eine gewisse Neigung zur Ausdehnung. Wo die Referenz einladend und knapp formuliert, wird Qwen länger, erklärender und damit weniger präzise in der sozialen Wirkung. Gerade bei sensiblen Formulierungsaufgaben ist das relevant. Gute Cultural Intelligence besteht nicht nur darin, nichts Anstößiges zu sagen. Sie besteht darin, die bessere Form zu finden. Qwen findet oft eine brauchbare, nicht immer die beste.

Bei UX Writing und Documentation Quality passt dieses Muster ebenfalls: verständlich, strukturiert, selten peinlich, aber nicht die Art von sprachlicher Ökonomie, die man bei exzellenten Produkttexten oder Dokumentationsbausteinen sucht. Es fehlt nicht an Kompetenz. Es fehlt an der letzten disziplinierten Verdichtung.

CLI und Tool-Nähe: kein Ausfall, aber auch kein Kommandozeilen-Raubtier

Der CLI-Wert von 77.78% ist stark genug, um Qwen in agentennahen oder developer-lastigen Kontexten ernst zu nehmen. Gleichzeitig verrät der kombinierte Tool- und Synthesis-Bereich, dass die direkte operative Exekution nicht das Zentrum seiner Identität ist. Es ist kein Modell, das nach Shell riecht, sobald man den Prompt öffnet.

Für die Praxis heißt das: einfache bis mittlere CLI-Aufgaben, strukturierte Befehlsvorschläge und nachvollziehbare textuelle Hilfen bekommt es gut hin. Wo es heikler wird, etwa bei sehr exakter Befehlsformatierung, präziser Risikoeinschätzung oder mehrstufiger technischer Orchestrierung, ist Kontrolle ratsam. Das ist kein Vorwurf. Ein Generalist der Edge-Klasse muss nicht zum DevOps-Monster mutieren. Er sollte nur nicht so tun, als wäre er eines. Qwen tut das nicht. Das ist immerhin ehrlich.

Token-Ökonomie: erfreulich unprätentiös

Ein wichtiger Pluspunkt dieses Modells ist seine Textökonomie. Über die Module hinweg bleibt Qwen nah am Fleet-Median oder sogar darunter. Kein Bereich läuft aus dem Ruder. Für ein lokales Modell ist das mehr als eine Schönheitsnote. Mehr Tokens bedeuten hier direkt mehr Wartezeit. Qwen verhält sich token-ökonomisch, kein Modul übersteigt den erwarteten Verbosity-Rahmen.

Besonders auffällig ist, dass selbst die starken Leistungen in Content Transformation nicht auf hemmungslose Textflut gebaut sind. Ja, das Modell kann in einzelnen Aufgaben länger werden als gewünscht. Strukturell ist es aber kein Schwätzer. Es schreibt meist so viel, wie es für seine Lösungsidee braucht. Das ist bei lokalen Modellen eine Tugend, die man nicht kleinreden sollte.

Datenschutz und Datenhoheit

Für dieses Review zählt in der Praxis vor allem: Hier lief eine lokale Open-Weights-Variante, nicht ein Cloud-Endpunkt. Trotzdem ist die Souveränitätsfrage nicht vollständig vom Tisch. Das berechnete Sovereign Risk liegt bei HIGH, weil die Gewichte von Alibaba Cloud stammen, einem Unternehmen unter chinesischem Recht, einschließlich PIPL, CSL, DSL und dem relevanten politischen Rahmen des National Security Law. Für deutsche und europäische Unternehmen ist das bei lokalem Betrieb deutlich entschärft, weil keine Prompt-Daten an einen chinesischen Provider übertragen werden müssen.

Würde man stattdessen die Alibaba-Cloud-Infrastruktur nutzen, entstünde ein echtes Drittlandtransfer-Thema ohne EU-Angemessenheitsbeschluss. Positiv ist, dass laut Vendor Card ein GDPR DPA verfügbar ist. Unklar bleibt die konkrete Speicherdauer für API-Anfragen; angegeben ist -1 Tage, also öffentlich nicht sauber ausgewiesen. Für regulierte Umgebungen ist das kein Detail, sondern ein Prüfpunkt. Die Gewichte sind unter Apache-2.0 kommerziell nutzbar, was die lokale Beschaffung vereinfacht. Die Provenienz bleibt aber ein Beschaffungsfaktor für Organisationen, die Lieferketten und Rechtsräume nicht nur auf dem Papier ernst nehmen.

Fazit

Qwen 3.5 9B (llama.cpp, UD-Q6_K_XL) ist ein gutes Beispiel dafür, wie erwachsen ein Edge-Generalist mit dichter 9B-Architektur inzwischen sein kann. Es schreibt stark um, denkt ordentlich mit, bleibt token-ökonomisch und liefert lokal genug Tempo, um sich nicht wie ein Kompromiss anzufühlen. Seine beste Rolle ist klar: Redaktionsnahe Transformation, strukturierte Arbeitsentwürfe, verständliche Erklärtexte, erste Analysen, agentische Hilfsarbeiten mit menschlicher Aufsicht.

Seine Schwächen sind ebenso klar. In Security fehlt Vollständigkeit und Schweregrad-Schärfe. In fein dosierten Sprachaufgaben fehlt manchmal die elegante Kürze. Im Reasoning ist die Lösung oft richtig, aber nicht immer mit der Ruhe vorgetragen, die man in heiklen Denksituationen sehen will. Und die sporadischen Aussetzer plus problematische Tail-Latenz erinnern daran, dass „läuft lokal“ nicht automatisch „läuft immer glatt“ bedeutet.

Als Werkzeug für Einzelanwender, Redaktionen, produktive Schreibarbeit und vorsortierende Assistenz ist dieses Modell deshalb leicht zu empfehlen. Als unbeaufsichtigter Prüfer für Security-Befunde oder als letzte Instanz in präzisionskritischen Workflows eher nicht. Über alle Tests hinweg keine nennenswerten Halluzinationen; Qwen erfindet selten wild drauflos, sondern scheitert eher durch Auslassung, Umweg oder Übererklärung. Und genau das macht seinen Charakter aus: kein Genie, kein Hochstapler, sondern ein ernsthafter Arbeiter mit gutem Sprachgefühl und gelegentlich stumpfem Skalpell.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.