Qwen 3.5 4B (llama.cpp, UD-Q6_K_XL) · LLM Model Review

Mit einem Gesamtscore von 68.56% zeigt Qwen 3.5 4B (llama.cpp, UD-Q6_K_XL), was ein kleines Generalisten-Modell im Jahr 2026 leisten kann, wenn die Gewichte gut sitzen: erstaunlich viel, aber nicht alles zugleich. Der Speed-Profile-Badge Interactive Tool Expert passt gut. Dieses Modell ist schnell genug für Dialog und leichte Arbeitsaufgaben, stolpert aber dort, wo mehrere Bedingungen gleichzeitig sauber eingehalten werden müssen. Als Generalist in der Nano-Klasse mit 4,0 Milliarden dichten Parametern ist es kein Taschen-Frontier-Modell, sondern ein kompaktes Arbeitstier mit begrenztem Atem und klar erkennbarem Charakter. Sovereign Risk: HIGH — die Gewichte stammen von Alibaba Cloud; der Anbieter unterliegt chinesischem Recht, auch wenn das cloud-spezifische Risiko beim lokalen Betrieb deutlich sinkt.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	1/43	Sporadisch	Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Bei einem lokalen Nano-Modell ist das kein Netzwerkdrama, sondern ein Hinweis auf Grenzen des Setups oder einzelne Lastspitzen. Für unbeaufsichtigte Agentenläufe bleibt das ein realer Makel.
P95-Antwortzeit	66.1 s	Problematisch	Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. Für fünf Prozent aller Anfragen wartet der Nutzer über eine Minute. Das ist für ein kleines lokales Modell kein Totalschaden, aber auch weit weg von „fühlt sich sofort an“.

Was die Kategorie hier wirklich bedeutet

Die redaktionelle Einstufung General, Thinking-Optional ist bei diesem Modell keine Zierleiste, sondern der Schlüssel zum Verständnis. Qwen 3.5 4B soll kein Spezialist für Code, kein reines Instruct-Modell und kein permanenter Grübler sein. Es ist ein Allrounder, der grundsätzlich einen erweiterten Denkmodus unterstützt, dieser Modus wurde im Benchmark aber bewusst nicht aktiviert. Gemessen wurde also das Out-of-the-box-Verhalten, nicht die Bestform nach Feintuning des Prompts oder nach zusätzlichem Thinking-Budget.

Das ist wichtig, weil kleine Modelle in dieser Klasse oft entweder gefällig plaudern oder stur exekutieren. Qwen 3.5 4B versucht beides. Genau daraus entsteht sein Profil: überraschend kompetent in breiten Standardaufgaben, manchmal sogar elegant, aber nicht immer belastbar, wenn mehrere Anforderungen gleichzeitig erfüllt werden sollen. Für ein dense-Modell mit echten 4,0 Milliarden aktiven Parametern ist das keine Ausrede, sondern die faire Messlatte. Mehr Kapazität gibt es hier schlicht nicht.

Tempo, Effizienz und lokaler Charakter

Auf dem lokalen Referenzsystem Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) lief Qwen 3.5 4B als lokales Modell mit 51.27 Tokens pro Sekunde. Das ist für die Nano-Klasse ein sehr brauchbarer Wert. Vor allem zeigt er, dass dieses Modell das Testsystem nicht in Richtung Speicherkollaps drückt. In einer Landschaft, in der größere Open-Weights-Modelle schnell an der 24-GB-Grenze kratzen und ihre Geschwindigkeit mit Auslagerungsorgien bezahlen, wirkt Qwen 3.5 4B fast schon diszipliniert.

Der Badge Interactive Tool Expert sagt im Klartext: nicht für nächtelange Stapelverarbeitung, sondern für direkte Interaktion mit Werkzeugbezug, etwa Shell-Hilfe, Überarbeitung von Texten, kleine Analyseaufgaben. Diese Einordnung passt. Das Modell verhält sich zudem token-ökonomisch. Kein Modul übersteigt den erwarteten Verbosity-Rahmen. Nur im Reasoning-Bereich redet es deutlich mehr als der Flotten-Median, was in diesem Modul freigestellt ist und eher auf innere Gründlichkeit als auf Geschwätzigkeit hindeutet.

Die Kehrseite ist die Streuung. Thinking-Optional-Modelle können selbst im Standardmodus intern mehr Arbeit verrichten als schlichte Befehlsempfänger. Hier sieht man das an der problematischen Schwanzlatenz. Im Alltag heißt das: oft flott, gelegentlich zäh. Wer sofortige Reaktion bei jeder einzelnen Anfrage braucht, sollte das nicht romantisieren.

Code Quality: ordentliches Fundament, aber keine forensische Tiefe

Mit 63.5 Punkten in Code Quality liegt das Modell im brauchbaren Bereich, aber nicht im souveränen. Der qualitative Security-Audit zeigt sehr klar, wo die Grenze verläuft. Qwen 3.5 4B erkennt offensichtliche und einige fortgeschrittene Schwachstellen sauber, liefert eine formal korrekte Tabelle und bleibt sprachlich präzise. Das ist für ein 4B-Modell respektabel. Es sieht SQL-Injection, Path Traversal, schwache Token-Generierung und Teile unsicherer Cookie- oder Mail-Logik. Es ist also nicht blind. Es ist nur kein echter Sicherheitsanalyst.

Der Unterschied zeigt sich bei der Tiefe. Im geprüften PHP-Sicherheitsaudit identifizierte das Modell 11 Schwachstellen, der Referenzstandard 19. Besonders problematisch ist nicht nur das Verpassen einzelner Lücken, sondern die Art der Fehleinschätzung. Eine IDOR-Kette, also ein unsicherer direkter Objektzugriff mit möglicher Kontoübernahme, wurde viel zu harmlos bewertet. CSRF-Schutz, Debug-Exposure, harte Datenbank-Credentials, Token-Ablaufzeiten und ein reflektiertes XSS tauchten gar nicht oder nur unzureichend auf. Solche Lücken sind keine dekorativen Details. Sie sind das Feuer im Fundament.

Auch die Fixes leiden unter diesem Muster. Vieles ist im Ansatz richtig, aber oft nicht zu Ende gedacht. === statt lockerer Vergleiche ist gut. hash_equals() für timing-sichere Vergleiche fehlt. Whitelisting bei Dateipfaden ist gut. realpath()-Validierung gegen erlaubte Verzeichnisse fehlt. Für ein kleines Generalisten-Modell ist das kein Debakel. Für reale Security-Reviews ist es zu wenig. Wer diesem Modell Quellcode zur Prüfung gibt, bekommt eine solide erste Sichtung, aber keinen Abschlussbericht. Es ist der Praktikant mit gutem Auge, nicht der Incident-Responder.

CLI und Tool-Nähe: besser als die Größe vermuten lässt

Der CLI-Benchmark mit 72.78 Punkten passt hervorragend zum Badge. Qwen 3.5 4B ist nicht der Typ Modell, der jedes Shell-Problem mit chirurgischer Exaktheit löst, aber es versteht die Logik von Werkzeugabläufen ordentlich genug, um im Alltag nützlich zu sein. Gerade für ein Nano-Modell ist das eine Stärke. Kleine Modelle scheitern in diesem Bereich oft daran, dass sie gleichzeitig Syntax, Reihenfolge, Nebenbedingungen und Kontext halten müssen. Qwen 3.5 4B tut das überraschend oft.

Man sollte die Erwartung trotzdem korrekt skalieren. Ein Modell dieser Größenklasse ist passend für Autocomplete-nahe Terminalhilfe, einfache One-Liner, Umformulierungen von Befehlen und das Erklären von Fehlermeldungen. Es ist weniger passend für längere mehrstufige Betriebsprozeduren, in denen Format, Korrektheit und Vollständigkeit ohne Nacharbeit sitzen müssen. Genau dort beginnt bei Nano-Modellen der Sand im Getriebe.

Reasoning und Logik: korrekt, aber mit der Neigung zum Umweg

Mit 67.55 Punkten im logischen Schließen schlägt sich Qwen 3.5 4B gut genug, um ernst genommen zu werden. Das qualitative Protokoll zur Wächter-und-Türen-Aufgabe ist aufschlussreich. Die Kernlösung war korrekt. Das Modell erklärte die doppelte Verneinungslogik sauber, führte Alternativen an und kam zum richtigen Ergebnis. Das ist mehr, als man von vielen Kleinstmodellen erwarten darf.

Der Haken liegt in der Darreichung. Qwen 3.5 4B denkt nicht knapp, sondern breit. Es zerlegt, ergänzt, variiert. Das kann bei Lern- und Erkläraufgaben angenehm sein. Es kann aber auch die Klarheit verwässern. Im untersuchten Beispiel war die Antwort logisch richtig, aber an einer entscheidenden Stelle sprachlich leicht mehrdeutig. Der Referenzstandard war kürzer, anschaulicher und visuell sauberer. Das Modell hatte also die richtige Idee, aber nicht die eleganteste Form.

Gerade hier merkt man die Kategorie Thinking-Optional. Ohne aktivierten erweiterten Denkmodus ist die Ausgangsleistung bereits ordentlich. Wer das Modell produktiv für Logikrätsel, strukturierte Problemanalyse oder schrittweise Erklärungen nutzt, dürfte in vielen Fällen zufrieden sein. Wer dagegen harte Präzision in knapper Form erwartet, muss nachredigieren oder enger prompten. Dieses Modell hat Gedanken. Es hat nur nicht immer den besten Schnittmeister.

UX Writing und Mikrotext: erstaunlich reif

Mit 71.75 Punkten in UX Writing gehört dieser Bereich zu den angenehmen Überraschungen. Kleine Modelle klingen hier oft entweder blechern oder überfleißig. Qwen 3.5 4B trifft dagegen häufig einen brauchbaren Mittelton. Es kann knappe, funktionale Sprache liefern, ohne sofort in Roboterdeutsch zu kippen. Für Buttons, Hinweise, kleine Hilfetexte und produktnahe Umformulierungen ist das ein echter Pluspunkt.

Das ist nicht trivial. UX-Mikrotext verlangt oft gleichzeitige Kontrolle über Kürze, Höflichkeit, Klarheit und Zielgruppenpassung. Genau an dieser Mehrfachbelastung scheitern viele Nano-Modelle. Qwen 3.5 4B hält sich hier stabiler als in manchen anderen Modulen. Das spricht für eine gute Grundabstimmung auf alltagsnahe Schreibaufgaben.

Content Transformation: kreativ brauchbar, aber beim Wortlimit nicht verlässlich

Mit 73.21 Punkten liefert das Modell im Umbauen und Anpassen von Inhalten eines seiner besten Module. Das qualitative Material zeigt warum. In einer Video-Skript-Aufgabe erkannte es fehlende Elemente wie Hook, Timing, Visual Cues und Spoken-Word-Stil korrekt. Das daraus erzeugte Skript war produktionsnah, mit Zeitmarken, Regiehinweisen, direkter Ansprache und sogar einem funktionierenden Easter Egg für Community-Engagement. Das ist kein Zufallstreffer, sondern ein Zeichen dafür, dass das Modell narrative Struktur versteht.

Gleichzeitig wird hier seine wichtigste Formschwäche sichtbar. Das Wortlimit ist für Qwen 3.5 4B keine eiserne Regel, sondern eher eine Empfehlung. In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern auf 317 Wörter, also 127% des Limits. Das System verhängte einen automatischen Abzug von 20% beziehungsweise 11.80 Punkten. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon.

In einer weiteren Aufgabe im selben Modul überschritt das Modell die explizite Vorgabe von 900 Wörtern auf 1124 Wörter, also 125% des Limits. Auch hier griff ein automatischer Abzug von 20% beziehungsweise 17.60 Punkten. Das ist kein Einzelhusten, sondern ein Muster. Das Modell verliert unter simultanen Vorgaben aus Inhalt, Format und Länge konsistent das Wortlimit als erste Bedingung. Für redaktionelle Praxis ist das ein echter Makel, weil genau solche Grenzen in Briefings, CMS-Masken oder Video-Skripten keine Zierde sind, sondern Produktionsrealität.

Wer das Modell für Umschreiben, Adaption oder Tonalitätswechsel nutzt, bekommt oft überraschend gute Substanz. Wer auf genaue Länge angewiesen ist, sollte entweder nachmessen oder direkt mit härteren Nachfass-Prompts arbeiten.

Documentation Quality: brauchbar für Erstentwürfe, nicht für das letzte Prozent

Die 68.64 Punkte in Documentation Quality beschreiben das Modell ziemlich treffend. Qwen 3.5 4B kann Dokumentation strukturieren, verständlich formulieren und mit genug Kontext ausstatten, um nützlich zu sein. Es neigt nicht zum wilden Abschweifen und bleibt im Token-Haushalt kontrolliert. Das macht es gut geeignet für erste Entwürfe, interne Notizen, knappe Erklärblöcke und Umformulierungen bestehender Doku.

Was ihm fehlt, ist die letzte Schicht aus Präzision und Priorisierung. Ein stärkeres Dokumentationsmodell erkennt besser, welche Information für wen zuerst kommen muss, trennt robuster zwischen Muss und Kann und schreibt knapper, ohne Wichtiges zu verlieren. Qwen 3.5 4B ist hier eher fleißig als brillant. Das ist okay. Nur sollte man es genau so einplanen: als Helfer für den ersten Wurf, nicht als Endredaktion.

Cultural Intelligence: höflich, korrekt, etwas kühl

Mit 64.6 Punkten ist Cultural Intelligence nicht die Glanzdisziplin, aber auch kein Problemfeld. Das vorliegende Protokoll zu einer diskriminierungssensiblen Umformulierung einer Stellenanzeige zeigt ein bekanntes Muster: Das Modell entfernt problematische Sprache sauber, nutzt genderneutrale Begriffe wie „Fachkraft“ und vermeidet toxische Kampfmetaphern. Es macht also die offensichtlichen Dinge richtig. Das ist die Pflicht, und die erfüllt es.

In der Kür bleibt es etwas steif. Der Richter bemängelte, dass der Ton weniger einladend und inklusiv wirkte als im Referenzstandard. Statt einer warmen, öffnenden Ansprache lieferte das Modell eher sachlich-fordernde Unternehmensprosa. Das ist kein grober Fehler. Es ist der Unterschied zwischen „formal korrekt“ und „menschlich klug“. Gerade in deutschsprachiger Unternehmenskommunikation ist dieser Unterschied größer, als viele Modelle glauben.

Security und Halluzinationsprofil

Übergreifend betrachtet ist die Sicherheitskompetenz zweigeteilt. Bei konkreten Schwachstellen in Code erkennt Qwen 3.5 4B einen brauchbaren Teil des Problemspektrums, unterschätzt aber Kettenrisiken und fortgeschrittene Exploit-Zusammenhänge. Für Security-Triage ist das nützlich. Für Freigaben ist es zu dünn.

Wichtiger ist: Das Modell wirkt nicht wie ein Halluzinations-Automat. Die qualitative Evidenz zeigt eher Auslassungen, Untertiefe oder Formalfehler als freie Erfindung. Das ist die angenehmere Schwäche. Ein Modell, das zu wenig sieht, ist anstrengend. Ein Modell, das Dinge erfindet, ist gefährlich.

Datenschutz und Datenhoheit

Für dieses Review zählt vor allem der lokale Einsatz, deshalb steht nicht die API-Jurisdiktion im Vordergrund, sondern die Herkunft der Gewichte. Das Weights-Provenienz-Risiko ist HIGH: Qwen stammt von Alibaba Cloud in China. Der Anbieter unterliegt chinesischem Recht, insbesondere PIPL, CSL und DSL; im Cloud-Betrieb entstünde daraus für europäische Nutzer ein Drittlandtransfer-Risiko ohne EU-Angemessenheitsbeschluss. Ein GDPR DPA ist laut Vendor Card zwar verfügbar, die konkrete Aufbewahrungsdauer für API-Anfragen ist öffentlich aber nicht klar ausgewiesen. Für den hier relevanten lokalen Betrieb gilt: Das cloud-spezifische Risiko sinkt deutlich, weil keine Nutzdaten an Alibaba übertragen werden. Die politische und rechtliche Herkunft der Gewichte verschwindet damit nicht, sie verändert nur ihren praktischen Hebel.

Fazit

Qwen 3.5 4B (llama.cpp, UD-Q6_K_XL) ist ein kleines Modell mit erwachsenem Nutzwert. Für einen Generalisten der Nano-Klasse mit dense-Architektur liefert es bemerkenswert viel: gutes Tempo, überraschend brauchbare Tool-Nähe, solides UX-Schreiben, ordentliches Reasoning und kreative Stärke bei Transformationsaufgaben. Seine Schwächen sind ebenso klar: Security-Analysen bleiben unvollständig, Wortlimits reißen wiederholt, und die Ausreißer bei der Antwortzeit zeigen, dass selbst ein kleines lokales Modell nicht automatisch friktionsfrei arbeitet. Für lokale Alltagsaufgaben, Textüberarbeitung, Produkt-Mikrocopy, einfache CLI-Hilfe und erste Entwürfe ist es eine vernünftige Wahl. Für Security-Reviews, streng formalisierte Produktionsketten oder Agenten ohne Aufsicht braucht es Kontrolle von außen. Über alle Tests hinweg keine nennenswerten Halluzinationen. Das Modell erfindet lieber zu wenig, als sich mit großer Geste zu blamieren.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.