Qwen 3.5 4B (UD-Q6_K_XL) · LLM Model Review

Mit einem Gesamtscore von 68,56 Prozent liefert Qwen 3.5 4B (UD-Q6_K_XL) genau das, was man von einem dichten Generalisten in der Nano-Klasse mit 4,0 Milliarden Parametern erwarten darf: mehr Breite als Brillanz, mehr Disziplin als Tiefgang. Der Speed Profile Badge Interactive Tool Expert passt erstaunlich gut. Dieses Modell antwortet flott genug für echte Dialoge und bleibt dabei in mehreren Disziplinen näher an der Sache, als seine Größe vermuten lässt. Sovereign Risk: HIGH — die Gewichte stammen von Alibaba Cloud in China; für lokale Nutzung entfällt zwar der laufende Datentransfer zum Anbieter, die Provenienz bleibt wegen chinesischer Jurisdiktion und NSL dennoch ein realer Souveränitätsfaktor.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	1/43	Sporadisch	Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Für ein lokales Nano-Modell ist schon ein einzelner Ausfall kein Schönheitsfehler, sondern ein Hinweis auf knappe Robustheitsreserven bei längeren oder komplexeren Aufgaben.
P95-Antwortzeit	66.1 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. Der lange Antwort-Schwanz ist bei einem Thinking-Optional-Modell im Standardmodus nicht völlig überraschend, bleibt aber im Alltag lästig.

Leistung und Laufzeit

Qwen 3.5 4B (UD-Q6_K_XL) ist ein lokales Open-Weights-Modell und wurde auf einem Apple Silicon M4 mit 24GB Unified Memory (Shared RAM/VRAM) vermessen. Seine offizielle Generierungsgeschwindigkeit liegt bei 51,27 Tokens pro Sekunde. Das ist für diese Gewichtsklasse nicht spektakulär, aber sehr brauchbar. Der Badge Interactive Tool Expert bedeutet im Klartext: Das Modell ist eher auf dialogische, direkte Arbeitslasten zugeschnitten als auf schwerfällige Batch-Verarbeitung. Es soll nicht im Hintergrund eine halbe Nacht über einem Dokument brüten, sondern zügig auf konkrete Anfragen reagieren.

Wichtig ist dabei die Architektur-Perspektive. Qwen 3.5 4B gehört zur Kategorie Thinking-Optional. CrucibleMark testet diesen Modus bewusst nicht mit aktiviertem Extended Thinking. Gemessen wird also das Verhalten, das ein typischer Nutzer ohne Spezialschalter bekommt. Wenn die Antwortzeiten trotz ordentlicher Tokens-pro-Sekunde nicht immer federleicht wirken, ist das kein Messfehler, sondern Teil des Modellcharakters. Es rechnet sichtbar nicht wie ein nacktes Befehlsempfangsgerät, sondern mit etwas mehr innerem Aufwand. Für ein Nano-Modell ist das ehrenwert. Für Zeitkritisches bleibt es nur begrenzt tröstlich.

Positiv: Das Modell verhält sich token-ökonomisch. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Im CLI-Bereich liegt es bei 175 Tokens statt 211 im Fleet-Median, bei Code Quality bei 1876 statt 2112, bei UX Writing bei 1235 statt 1271. Nur Documentation Quality und Content Transformation liegen leicht darüber, aber weit weg von verschwenderischem Gerede. Für ein lokales Modell ist das vor allem ein Latenzvorteil. Qwen schreibt nicht unnötig viel. Es schreibt nur dort zu viel, wo es Vorgaben aus den Augen verliert.

Der architektonische Rahmen: Generalist, Nano, Dense

Die Einordnung General, Thinking-Optional ist bei diesem Modell keine Nebensache, sondern der Schlüssel zum fairen Urteil. Als Generalist muss es über die volle Aufgabenbreite antreten: Code, Textumbau, UX, Logik, Dokumentation, kulturelle Sensibilität. Als Nano-Modell darf man keine Wunder in Weltwissen oder Tiefenlogik erwarten. Als Dense-Transformer sind alle 4,0 Milliarden Parameter stets aktiv. Es gibt also keinen MoE-Trick, der auf dem Papier groß aussieht und in der Praxis kleiner arbeitet. Was hier an Kapazität da ist, ist auch wirklich die gesamte Kapazität.

Genau daran gemessen wirkt das Ergebnis respektabel. Qwen 3.5 4B (UD-Q6_K_XL) ist kein Mini-Genius. Aber es ist auch keines dieser kleinen Modelle, die bei der dritten Nebenbedingung nervös werden und dann nur noch Formatstaub produzieren. Seine eigentliche Stärke ist nicht Exzellenz, sondern ein ziemlich robuster Allround-Zuschnitt. Das ist für diese Klasse mehr wert, als manche Benchmark-Fetischisten wahrhaben wollen.

Code Quality und Security: brauchbar, aber ohne forensischen Instinkt

Die härteste Wahrheit steht im Security-Teil. In der Code-Quality-Prüfung erreicht das Modell 63,5 Prozent, und das beschreibt den Charakter ziemlich präzise. Es erkennt viele offensichtliche Schwachstellen, scheitert aber dort, wo Sicherheitsanalyse vom Katalogwissen in systemisches Denken umschlägt.

Das qualitative Protokoll zeigt das unschön deutlich. In einer PHP-Sicherheitsanalyse identifizierte Qwen 11 Schwachstellen, während der Referenzstandard 19 fand. Das ist keine kleine Lücke, sondern ein Verlust an Gefahrenbild. Übersehen wurden unter anderem reflektiertes XSS, fehlender CSRF-Schutz, Debug-Exposure, fehlende Ablaufzeit für Reset-Tokens und problematische Datenbank-Credentials. Noch kritischer ist die Fehlgewichtung: Eine IDOR-artige Kontoübernahme-Kette wurde als niedrig priorisiert, obwohl der Referenzstandard sie als kritisch einordnet. Genau dort trennt sich „kann Sicherheitsbegriffe aufzählen“ von „versteht Angriffsflächen“.

Auch die Fixes sind oft nur halb fertig. === statt losem Vergleich wird genannt, aber hash_equals() als timing-sicherer Vergleich fehlt. Bei Path Traversal taucht die Whitelist auf, aber realpath()-Prüfung gegen erlaubte Verzeichnisse nicht. Das ist kein Totalausfall. Es ist die Art Antwort, die in einem Entwicklerteam als brauchbare Erstsortierung durchgeht und dann vom Senior Security Engineer nachgeschärft werden muss.

Immerhin: Form und Sprache stimmen. Das Modell liefert eine verwertbare Tabelle, bleibt deutschsprachig und arbeitet strukturiert. Das rettet den Abschnitt nicht, macht ihn aber produktiv nutzbar. Für einfache Audits, Lehrmaterial oder als zweites Paar Augen in Low-Risk-Code ist das okay. Für echte Sicherheitsfreigaben wäre es fahrlässig, aus diesem Modell einen Gatekeeper zu machen.

Logik und Reasoning: überraschend ordentlich, aber mit langem Atem

Im Bereich Logical Reasoning landet Qwen 3.5 4B (UD-Q6_K_XL) bei 67,55 Prozent. Das klingt unscheinbar. Für ein 4B-Modell ist es aber mehr als nur ein Achselzucken. In den qualitativen Protokollen löst es klassische Logikaufgaben korrekt, inklusive sauberer Schlussfolgerung und alternativer Denkwege. Beim Wächter-Rätsel formuliert es die richtige Frage, erklärt die doppelte Inversion stimmig und kommt zur korrekten Entscheidung. Der Judge kritisiert vor allem die Präsentation: zu lang, etwas umständlich, stellenweise semantisch nicht ganz so glasklar wie die Referenz.

Das ist ein wiederkehrendes Muster. Qwen denkt nicht schlampig, aber es denkt nicht elegant. Die Antwort hat den leicht überladenen Charakter eines guten Schülers, der wirklich verstanden hat, was passiert, aber noch nicht gelernt hat, wie man es ohne Nebengeräusche auf den Punkt bringt. Das ist weit sympathischer als pseudo-souveräner Unsinn. Es kostet nur Zeit.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 67,55 Prozent, was seinem generellen Reasoning-Niveau entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal. Dieser Abzug ist methodisch gewollt.

Die eine Timeout-Episode in diesem Modul ist ebenfalls kein Zufallsrauschen. Reasoning ist hier der Bereich, in dem die Nano-Grenze am klarsten sichtbar wird. Wenn Aufgaben viele Bedingungen, Formatvorgaben und längere Ausführung kombinieren, gerät das Modell ins Ziehen. Es bleibt nützlich. Es bleibt nur nicht gelassen.

Content Transformation: stark im Umbau, schwach beim Wortlimit

Mit 73,21 Prozent gehört Content Transformation zu den erfreulicheren Bereichen. Das Modell kann Texte umformen, toxische Sprache entschärfen, Tonalität professionalisieren und Arbeitsmaterial in neue Formate übertragen. Besonders gut sichtbar wird das in der inklusiven Umschreibung einer aggressiven Stellenanzeige: genderneutrale Sprache, toxische Kampfbegriffe entfernt, professioneller Ton gesetzt. Der Judge moniert dort vor allem, dass Qwen eher korrekt als warm schreibt. Die Referenz wirkt einladender, idiomatischer, menschlicher. Qwen wirkt wie HR nach einer Nacht mit Compliance-Unterlagen. Das ist sicherer als peinlich, aber nicht gerade ein Charme-Angriff.

Auch bei komplexeren Transformationsaufgaben, etwa einem Video-Skript mit Timing, Hook, visuellen Hinweisen und Easter Egg, zeigt das Modell echte Produktionsnähe. Es benennt fehlende Elemente, setzt Timestamps, liefert Bildschirmhinweise und versteht YouTube-Mechanik besser, als man einem 4B-Modell spontan zutrauen würde. Der Judge nennt das Ergebnis ausdrücklich produktionsreif, mit kleineren Schwächen bei Cue-Präzision und Struktur.

Nur genau hier schlägt dann die Disziplinlücke zu. In zwei Aufgaben dieses Moduls überschritt das Modell die expliziten Wortlimits deutlich. Das ist kein kosmetischer Fehler, sondern ein automatischer Punktabzug durch das System.

In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern um 27 Prozent. Das System verhängte einen automatischen Abzug von 20 Prozent beziehungsweise 11,80 Punkten auf den erreichbaren Aufgaben-Score. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon.

In einer weiteren Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 900 Wörtern um 25 Prozent. Das System verhängte erneut einen automatischen Abzug von 20 Prozent beziehungsweise 17,60 Punkten. Auch hier gilt: Ob der Inhalt gut war, spielt für die Strafe keine Rolle.

Das Längenproblem ist kein isolierter Ausreißer. Über mehrere Aufgaben im Content-Transformation-Bereich zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es das Wortlimit als erste Bedingung. Genau das ist eine klassische Nano-Schwäche. Wer dieses Modell für Redaktions- oder Marketing-Workflows einsetzen will, sollte entweder harte Nachkontrollen einbauen oder die Wortzahlvorgabe im Prompt aggressiver rahmen. Sonst liefert Qwen einen brauchbaren Text, der am Briefing vorbeiwächst wie Efeu an einer Hauswand.

Documentation Quality: ordentlich, sachlich, etwas ausladend

In der Documentation Quality erreicht Qwen 68,64 Prozent. Das ist kein Triumph, aber eine stabile Vorstellung. Das Modell schreibt nachvollziehbar, strukturiert und mit erkennbarem Willen zur Vollständigkeit. Der leichte Token-Overhead von 1,13 gegenüber dem Fleet-Median deutet darauf hin, dass es Erklärungen lieber etwas breiter anlegt, ohne ins Schwafeln zu kippen.

Der eigentliche Eindruck aus den Protokollen: Qwen dokumentiert wie ein pflichtbewusster Teamkollege, der niemanden hängen lassen will. Das ist oft nützlich. Es wird dort mühsam, wo Prägnanz das Ziel ist. Für interne Dokus, Onboarding-Material oder verständliche Erstfassungen ist das durchaus passend. Für hochverdichtete technische Referenzen fehlt ihm die letzte editorische Schärfe.

UX Writing und Microcopy: überraschend trittsicher

Mit 71,75 Prozent im UX-Writing gehört Qwen 3.5 4B (UD-Q6_K_XL) zu den angenehmsten Überraschungen dieses Benchmarks. Gerade kleine Modelle verwechseln Microcopy gern mit Mini-Marketing oder liefern sterile Knopfbeschriftungen, die wie aus einem Formularfriedhof gefallen sind. Qwen macht das besser. Es bleibt nah an der Aufgabe, schreibt knapp genug und verfehlt den Ton nicht systematisch.

Das ist keine poetische Begabung. Es ist etwas Nützlicheres: funktionale Sprachdisziplin. Für Interface-Texte, Fehlermeldungen, kleine Umformulierungen und all die unscheinbaren Textbausteine, an denen Produkte täglich gemessen werden, ist das Modell glaubwürdiger als seine Größe vermuten lässt.

CLI Benchmark: pragmatisch statt brillant

Im CLI-Bereich stehen 72,78 Prozent. Das passt zum Gesamtbild. Qwen ist hier kein Terminal-Virtuose, aber durchaus arbeitsfähig. Der niedrige Tokenverbrauch zeigt, dass es Befehle nicht unnötig aufbläht. Für einfache bis mittlere Shell-Aufgaben ist das genau richtig. Das Modell sagt eher, was zu tun ist, als lange darüber zu sprechen.

Für agentische Workflows ist trotzdem Vorsicht angebracht. Ein Nano-Modell mit sporadischem Timeout und begrenzter Tiefenschärfe ist kein Werkzeug, dem man unüberwacht lange Multi-Step-Sequenzen anvertrauen sollte. Als lokaler Assistent für einzelne Befehle, Parsing-Hilfen oder Linux-Alltag ist es dagegen gut aufgehoben.

Cultural Intelligence: höflich, kompetent, aber nicht besonders warm

Der Wert von 64,6 Prozent in Cultural Intelligence wirkt auf den ersten Blick etwas knapp, die Protokolle lesen sich jedoch besser als die Zahl. Das Modell entschärft toxische oder ausgrenzende Sprache zuverlässig, bleibt in deutscher Ausgabe stabil und trifft inklusive Formulierungen meist ordentlich. Im konkreten Beispiel einer problematischen Stellenanzeige entfernt es Begriffe wie „Ninja“, „kill the competition“ und andere Macho-Reflexe konsequent. Das ist nicht banal. Viele Modelle glätten hier nur die Oberfläche und lassen den Gestus intakt.

Der Haken: Qwen schreibt kulturell korrekt, aber nicht besonders feinfühlig. Der Judge bemängelt einen etwas traditionellen, anforderungsorientierten Ton und fehlende Wärme im Einladungscharakter. Anders gesagt: Das Modell weiß, was man nicht mehr sagen sollte. Es weiß noch nicht immer, wie gute, moderne Ansprache auf Deutsch elegant klingt. Das ist ein Unterschied, den Personalabteilungen und Kommunikationsprofis sofort bemerken werden.

Datenschutz und Datenhoheit

Für dieses lokal betriebene Open-Weights-Modell ist kein eigener Cloud-Datenschutzblock der entscheidende Punkt, sondern die Herkunft der Gewichte. Das berechnete Sovereign Risk liegt bei HIGH. Grund ist die Provenienz: Entwickler ist Alibaba Cloud in China, also ein Unternehmen unter chinesischer Jurisdiktion mit Relevanz von PIPL, CSL, DSL und dem im Hintergrund politisch wichtigen National Security Law. Für Nutzer in Deutschland und Europa ist das beim lokalen Einsatz deutlich weniger heikel als bei einer direkten API-Nutzung, weil kein laufender Prompt-Datenabfluss zum Anbieter stattfindet. Die Herkunft der Gewichte bleibt trotzdem ein Souveränitätsfaktor, den regulierte Umgebungen nicht einfach wegwinken sollten.

Fazit

Qwen 3.5 4B (UD-Q6_K_XL) ist ein kleines Modell mit erstaunlich erwachsenem Auftreten. Es erreicht 68,56 Prozent, arbeitet meist strukturiert, bleibt token-ökonomisch und liefert für einen Generalisten der Nano-Klasse eine überzeugende Alltagsbreite. Seine besten Seiten zeigt es in UX-Writing, CLI-Nähe, solider Texttransformation und brauchbarem Standard-Reasoning. Seine schwächeren Seiten liegen dort, wo Tiefe, Priorisierung und harte Constraint-Treue gefragt sind: Security-Analyse bleibt unvollständig, Wortlimits reißen wiederholt, und die Tail-Latenz ist für längere Denkaufgaben zu hoch. Über alle Tests hinweg keine nennenswerten Halluzinationen — das Modell erfindet lieber zu wenig Kontext, als sich mit Fantasie zu ruinieren.

Die Gewichte stammen von Alibaba Cloud unter Apache-2.0-Lizenz. Für lokale Nutzung ist das praktisch und souveränitätsseitig klar günstiger als ein Cloud-Call, auch wenn das hohe Provenienz-Risiko aus chinesischer Herkunft im Hintergrund bestehen bleibt.

Die Empfehlung ist entsprechend klar: Dieses Modell eignet sich für lokale Alltagsaufgaben, Schreibassistenz, leichte Entwicklungsunterstützung, Microcopy, Umformulierungen und einfache agentische Teilaufgaben mit Kontrolle. Wer präzise Security-Bewertungen, harte Format-Compliance ohne Nacharbeit oder tiefes, schnelles Mehrschritt-Reasoning braucht, sollte eine Klasse höher einkaufen. Qwen 3.5 4B (UD-Q6_K_XL) ist kein Skalpell. Aber für ein Taschenmesser schneidet es bemerkenswert sauber.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.