LLM Model Review
Erstellt am · General · Thinking-Optional
Mit einem Gesamtscore von 59.84% ist Qwen 3 4B (llama.cpp, Q6_K) kein kleines Wunder, sondern ein ehrlicher Nano-Allrounder mit klarer Oberkante. Der Speed-Profile-Badge Real-Time Tool Expert passt erstaunlich gut: Das Modell antwortet schnell, bleibt meist strukturiert und liefert für seine 4,0 Milliarden dichten Parameter mehr Brauchbarkeit, als man dieser Gewichtsklasse reflexhaft zutraut. Aber genau hier beginnt auch die Grenze: Sobald mehrere Vorgaben gleichzeitig zählen, also Sprache, Präzision, Sicherheitsdenken und Tiefgang, wird aus dem flinken Helfer rasch ein Assistent mit dünnem Nervenkostüm. Sovereign Risk: HIGH — Alibaba Cloud stammt aus China; für Cloud-Betrieb gelten PIPL, CSL und DSL, bei lokalem Einsatz der Open-Weights-Variante ist das Übertragungsrisiko jedoch deutlich reduziert.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 0/43 | Stabil | Das Modell lief im Test absolut stabil und zuverlässig. |
| P95-Antwortzeit | 23.43 s | Konsistent | Sehr geringer Tail, kaum Ausreißer. |
Stabilität ist hier keine Fußnote, sondern eine echte Stärke. Gerade bei lokalen Open-Weights-Modellen sieht man oft, wie Benchmarks an Speichergrenzen, Swapping oder schlichter Laufzeitfragilität zerschellen. Qwen 3 4B (llama.cpp, Q6_K) tat das nicht. Für ein lokales Modell auf Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) ist das ein wichtiges Signal: Dieses Modell lebt klar innerhalb des Hardware-Budgets des Testsystems, statt es permanent anzukratzen.
Einordnung: Was man von diesem Modell erwarten darf
Qwen 3 4B (llama.cpp, Q6_K) ist als Generalist eingestuft, gehört also nicht in die Schublade Spezialwerkzeug, sondern soll über die volle Breite funktionieren. Zugleich ist es ein Nano-Modell, also die kleinste ernstzunehmende Leistungsklasse. Hier misst man nicht an Frontier-Maßstäben, sondern an der Frage, wie viel Substanz pro Gigabyte und pro Watt herausfällt. Dazu kommt die Dense-Architektur: Alle 4,0 Milliarden Parameter sind bei jeder Antwort aktiv. Es gibt keinen MoE-Trick, keine versteckte Expertenauswahl, keinen Marketingnebel um Total- versus Aktivparameter. Was draufsteht, arbeitet auch.
Der zweite Metadatenpunkt ist ebenso wichtig: Thinking-Optional. Qwen 3 unterstützt grundsätzlich einen erweiterten Denkmodus, der im Benchmark jedoch bewusst nicht aktiviert war. Gemessen wurde also das Verhalten im Standardmodus, so wie es ein typischer Nutzer ohne Spezialkonfiguration erlebt. Das ist fair und in diesem Fall aufschlussreich. Denn Qwen 3 4B wirkt oft so, als könne es den Ansatz einer guten Antwort sehen, aber nicht immer den letzten halben Kilometer sauber zu Ende gehen.
Geschwindigkeit und Laufprofil
Die nackte Zahl ist stark: 75.8 Tokens pro Sekunde. Für ein lokales Nano-Modell ist das mehr als nur angenehm. Es ist die Art von Tempo, bei der Interaktion nicht wie ein Batch-Job wirkt, sondern wie Software. Der Badge Real-Time Tool Expert sagt im Kern: Dieses Modell ist für direkte, schnelle Arbeitsschritte gemacht, nicht für langes Grübeln oder ausufernde Textproduktion.
Dazu passt die Token-Ökonomie. Kein einziges Modul überschreitet den erwarteten Verbosity-Rahmen. Im Gegenteil: Qwen 3 4B (llama.cpp, Q6_K) bleibt durchweg unter dem Fleet-Median, etwa mit 148 Tokens im CLI-Bereich gegenüber 219 im Median oder 1704 statt 2117 in Code Quality. Das Modell verhält sich token-ökonomisch. Bei einem lokalen Setup ist das kein Kostenargument wie bei APIs, sondern ein Latenzvorteil. Weniger Ballast heißt hier meist auch: schneller fertig, weniger Risiko für unnötig lange Antwortschwänze.
Die Kehrseite ist allerdings sichtbar. Kürze kippt bei kleinen Modellen leicht in Untertiefe. Qwen 3 4B spart Tokens, aber nicht immer an der richtigen Stelle. Was fehlt, sind oft gerade die paar Sätze, die aus einer brauchbaren Antwort eine belastbare machen würden.
Code Quality und Security: brauchbar, aber nicht vertrauenswürdig ohne Kontrolle
Im Code- und Security-Bereich zeigt Qwen 3 4B (llama.cpp, Q6_K) sein wohl sympathischstes Gesicht. Es erkennt reale Schwachstellen, produziert Tabellen sauber und bleibt formal ordentlich. Das ist für ein 4B-Modell nicht banal. Im Audit einer PHP-Anwendung identifizierte es SQL Injection, Klartext-Passwörter, XSS, Session Fixation, Path Traversal und CSRF. Das ist kein Zufallstreffer, sondern ein Zeichen solider Grundausbildung.
Nur ist Sicherheit eben keine Disziplin, in der man für „die grobe Richtung stimmt“ einen Orden bekommt. Der Judge bemängelte massive Redundanz in der Tabelle, fünf bis sechs doppelte oder fast doppelte Einträge, dazu fehlende kritische Lücken wie Hardcoded API Secret, Root-Datenbankzugang ohne Passwort, nicht ablaufende Reset-Tokens und eine unvollständige Behandlung von IDOR. Schlimmer noch: Die Priorisierung war teils falsch. Ein lockerer API-Key-Vergleich wurde nur als „Medium“ behandelt, obwohl die Referenz ihn als kritisch einstuft. Das ist keine stilistische Differenz, sondern eine Sicherheitsfehleinschätzung.
Auch bei den Fixes zeigt sich der typische Nano-Kompromiss. Qwen 3 4B nennt oft die richtige Richtung, aber zu vage. „bcrypt oder ähnlich“ ist eben nicht dasselbe wie ein konkreter Verweis auf password_hash() und password_verify(). In Security-Fragen zählt Implementierbarkeit. Vage gute Absichten patchen kein System.
Unterm Strich ist das Modul mit 57.1% folgerichtig nur Mittelmaß. Für schnelle Erstanalysen, Red-Flag-Sichtung oder als Vorfilter in einem Entwickler-Workflow ist das nützlich. Für ein autonomes Security-Audit reicht es nicht. Wer diesem Modell bei Verwundbarkeiten blind vertraut, verwechselt Erkennen mit Verstehen.
CLI und Tool-Nähe: flink, aber mit Halluzinationsrisiko
Der CLI-Bereich fällt mit 73.34% respektabel aus. Das deckt sich mit dem Laufprofil: kurze, direkte Aufgaben liegen diesem Modell besser als elaborierte Synthesen. Für Shell-nahe Aufgaben oder einfache Agenten-Subtasks ist das plausibel. Ein Nano-Generalist muss hier nicht brillant sein, nur präzise genug. Das gelingt häufig.
Allerdings liefern die Tool-Use-Befunde einen harten Dämpfer. In zwei Aufgaben generierte das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten, sondern erfunden waren. Das System kappte deshalb den P2-Score per Halluzinations-Cap. Für content-kritische Aufgaben wie Recherche, Faktenberichte oder jede Form von toolgestützter Verifikation ist das ein disqualifizierendes Signal. Ein Modell darf bei Tool-Use vieles sein. Kreativ gehört nicht dazu.
Diese Halluzinationsfälle sind deshalb schwerwiegender als ein sachlicher Fehler in freier Antwort. Hier geht es nicht um Interpretation, sondern um Quellenbindung. Wenn ein Modell den Output eines Werkzeugs mit eigenen Einfällen überschreibt, wird aus Assistenz eine Haftungsfalle.
Reasoning und Logik: richtige Richtung, unsaubere Begründung
Mit 57.95% im Reasoning landet Qwen 3 4B (llama.cpp, Q6_K) genau dort, wo viele kompakte Generalisten enden: häufig auf der richtigen Fährte, aber nicht mit letzter logischer Sauberkeit. Das qualitative Protokoll zum klassischen Wächterrätsel ist dafür fast lehrbuchhaft. Das Modell nennt die richtige Strategie, erklärt sie aber unscharf. Es sagt sinngemäß, man solle die Tür wählen, die der Wächter nicht nennt, statt präzise zu formulieren, dass man die gegenüberliegende Tür zu der genannten wählen muss. Praktisch führt beides dort zum Ziel. Logisch ist es trotzdem nicht dasselbe.
Solche Fehler sind tückisch, weil sie nicht wie grober Unsinn wirken. Die Antwort sieht plausibel aus, bleibt zugänglich und ist im Ergebnis oft sogar brauchbar. Gerade deshalb ist sie gefährlich. Der Nutzer bekommt kein offensichtliches Warnsignal, sondern eine Erklärung, die nur knapp neben der Spur läuft. Für Mathe- oder Logikdidaktik ist das zu wenig. Für Alltagsrätsel noch hinnehmbar.
In einer metakognitiven Reasoning-Aufgabe ignorierte das Modell zudem die explizite Sprachanweisung und antwortete auf Englisch. Das Modell ignorierte die explizite Sprachanweisung und antwortete auf Englisch. In produktiven Umgebungen mit fixer Zielsprache ist das ein klares Einsatzrisiko.
Hinzu kommt ein struktureller Punkt: Das Sprachversagen ist kein isolierter Ausreißer. Über mehrere Aufgaben in unterschiedlichen Modulen zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es die Sprachvorgabe als erste Bedingung. Für ein Nano-Modell ist das nicht überraschend, aber es bleibt ein realer Mangel.
UX Writing: funktional, aber selten elegant
Das UX-Writing-Modul endet bei 58.65% und damit in jener Zone, in der Antworten benutzbar sind, ohne je das Gefühl von Handwerkssicherheit zu erzeugen. Das qualitative Protokoll zeigt genau das. Qwen 3 4B hält sich an die expliziten Aufgabenregeln, liefert zuerst eine Analyse, bleibt in der geforderten Satzanzahl und benennt mehr als die mindestens drei Probleme. Solche formalen Treffer sind wichtig. Sie zeigen, dass das Modell Instruktionen nicht grundsätzlich verschläft.
Was fehlt, ist die zweite Ebene: Präzision im Urteil, konkrete Mikroverbesserung, psychologische Begründung mit Substanz. Im Protokoll wurde die Optimierung als funktional, aber vage beschrieben. Die Beispiele blieben allgemein, die Diagnose einzelner Schwachstellen zu unscharf, die psychologische Herleitung geradezu dünn. Ein gutes UX-Modell findet nicht nur den Fehler, sondern benennt, warum ein bestimmter Satz Reibung erzeugt. Qwen 3 4B deutet das an, aber selten mit der Schärfe eines Editors.
Das ist die wiederkehrende Charakterfrage dieses Modells. Es arbeitet höflich, oft korrekt, manchmal sogar angenehm strukturiert. Aber es hat zu selten den Instinkt für den einen präzisen Dreh, der aus „okay“ ein belastbares Kommunikationsartefakt macht.
Content Transformation: strukturell kompetent, sprachlich aus der Spur
Mit 65.33% ist Content Transformation eines der besseren Felder des Modells. Das ist nachvollziehbar. Qwen 3 4B kann Struktur. In der analysierten Videoskript-Aufgabe setzte es Timing-Marker, Screen-Annotations, Musik-Cues und Produktionshinweise sauber um. Auch die grobe Dramaturgie einer 4- bis 5-minütigen YouTube-Erklärung wurde getroffen. Das ist mehr, als viele kleine Modelle in Zero Shot zuverlässig schaffen.
Dann kam der Bruch. In einer Aufgabe dieses Moduls antwortete das Modell trotz expliziter Sprachvorgabe auf Englisch. Das ist kein kleiner Schönheitsfehler, sondern ein automatischer Hard-Constraint-Verstoß. Die Aufgabe verlangte Deutsch, geliefert wurde überwiegend Englisch mit Markerzählung DE=13, EN=70. Die inhaltliche Qualität der Antwort ist damit sekundär. Das System verhängte den Abzug regelbasiert, unabhängig davon, dass Struktur und Produktionslogik durchaus brauchbar waren.
Das Modell ignorierte die explizite Sprachanweisung und antwortete auf Englisch. Als Instruction-Following-Schwäche ist das in redaktionellen, internationalen oder markensensitiven Workflows ein reales Risiko. Wer eine feste Ausgabesprache braucht, muss hier nachkontrollieren oder einen Guardrail davorsetzen.
Inhaltlich zeigte der Judge zusätzlich qualitative Lücken: ein generischer Hook statt einer zugespitzten Einstiegsszene, kein Pattern-Interrupt gegen Zuschauerabfall, zu blasse Einbettung der Backup-Codes und ein passives Easter Egg ohne Community-Zugkraft. Anders gesagt: Das Modell kennt die Bauteile des Formats, aber noch nicht ganz dessen Regie.
Documentation Quality: überraschend ordentlich, bis die Sprache kippt
Mit 67.16% ist Documentation Quality das stärkste klassische Schreibmodul dieses Modells. Das ist durchaus bemerkenswert. Gerade kleine Modelle neigen in Doku-Aufgaben zu trockenem Auflisten oder strukturellem Zerfall. Qwen 3 4B scheint hier einen gewissen Ordnungsinstinkt zu haben. Es kann Anforderungen abarbeiten, Probleme explizit benennen und anschließend eine überarbeitete Fassung liefern, ohne sich zu verheddern.
Aber auch hier taucht derselbe Makel auf. In einer Aufgabe im Documentation-Bereich antwortete das Modell auf Englisch statt auf Deutsch. Der automatische Sprachfehler ist dokumentiert mit DE=5, EN=48. Das Modell ignorierte die explizite Sprachanweisung und antwortete auf Englisch. Das ist kein technischer Defekt, sondern ein Compliance-Problem. Wer Dokumentation für deutschsprachige Teams, interne Wissensdatenbanken oder regulierte Umgebungen schreibt, braucht Verlässlichkeit gerade bei solchen Basisvorgaben.
Damit wird auch das Gesamtmuster klarer: Qwen 3 4B scheitert in Schreibaufgaben nicht primär an Struktur oder Textmenge. Es scheitert eher an der letzten Disziplin des Befolgens, wenn mehrere Anforderungen gleichzeitig aktiv sind.
Cultural Intelligence: die klarste Schwäche im Profil
Der mit Abstand schwächste Wert steht bei 48.3% in Cultural Intelligence, und das ist keine statistische Laune. Das Protokoll zur inklusiven Umschreibung einer toxischen Stellenausschreibung fällt deutlich aus. Das Modell lieferte zwar Deutsch und hielt die reine Ausgabeform ein, ließ aber problematische Begriffe wie „Ninja“ stehen, produzierte schiefe Übertragungen wie „join uns“ und blieb im Tonfall zu casual, teils weiterhin männlich codiert.
Genau hier zeigt sich, dass kulturelle Sensibilität nicht aus ein paar Wortersetzungen entsteht. Gute Modelle schreiben eine problematische Vorlage nicht bloß weich, sie bauen sie neu. Die Referenz ersetzte toxische Begriffe durch professionelle, inklusive Formulierungen, verschob den Registerton in Richtung HR-tauglicher Ansprache und gab dem Text eine positive Kompetenzsprache. Qwen 3 4B machte eher kosmetische Korrekturen. Das reicht in Diversity-, Employer-Branding- oder lokalisierungsnahen Aufgaben schlicht nicht.
Für einen Generalisten ist das eine echte Schwäche, nicht bloß ein Nebenschauplatz. Wer Allrounder verspricht, muss auch bei sozialer und sprachkultureller Feinmechanik mehr können als grobes Entgiften.
Datenschutz und Datenhoheit
Für dieses konkret getestete Setup ist die Datenschutzlage zweigeteilt. Das Modell selbst stammt von Alibaba Cloud (China), das berechnete Sovereign Risk liegt bei HIGH. Begründung: Weights-Provenienz und Anbieterherkunft unterliegen chinesischem Recht, konkret PIPL, CSL und DSL; bei Cloud-Nutzung entsteht für europäische Unternehmen ein Drittlandtransfer-Risiko ohne EU-Angemessenheitsbeschluss. Ein GDPR DPA ist verfügbar, was für Unternehmen wichtig ist, die formale DSGVO-Prozesse abbilden müssen. Der angegebene Datenstandort lautet China plus regionale Rechenzentren weltweit, die Speicherdauer für API-Anfragen ist öffentlich jedoch nicht klar ausgewiesen und wird in den Card-Daten mit -1 Tagen geführt.
Für dieses Review ist der entscheidende Punkt aber: Getestet wurde die lokale Open-Weights-Variante, nicht ein chinesischer Cloud-Endpunkt. Dadurch entfällt im praktischen Einsatz auf eigener Infrastruktur das unmittelbare Abflussrisiko an den Provider. Das hohe Provenienz-Risiko bleibt als Governance-Thema bestehen, nicht als automatischer Datenabfluss.
Fazit
Qwen 3 4B (llama.cpp, Q6_K) ist ein überraschend flinkes, diszipliniert laufendes Nano-Modell mit sauberer Token-Ökonomie und ehrlicher lokaler Praxistauglichkeit. Seine besten Seiten zeigt es in strukturierten Kurzaufgaben, einfacher Tool-Nähe, brauchbarer Dokumentationsarbeit und frühen Security-Sichtungen. Seine schlechtesten Seiten zeigen sich dort, wo ein Allrounder mehr sein muss als schnell: kulturelle Feinfühligkeit, stringente Sprach-Compliance, belastbare Sicherheitspriorisierung und logisch wasserdichte Erklärungen.
Das Urteil fällt deshalb klar aus. Für Edge- und Laptop-Einsatz, lokale Assistenz, Textüberarbeitung erster Stufe, CLI-Hilfe und einfache Agenten-Subtasks ist dieses Modell sinnvoll. Für Security-kritische Reviews, faktengebundene Tool-Workflows, mehrsprachig strikte Produktionspipelines oder sensible Kommunikationsarbeit sollte es nicht ohne nachgelagerten Check arbeiten. Extended Thinking könnte einen Teil der Reasoning-Schwächen abfedern, war hier aber nicht aktiv. Im Standardmodus ist Qwen 3 4B kein Blender, aber auch kein stiller Held. Es ist das, was viele Nutzer tatsächlich brauchen und manche überschätzen: ein schnelles kleines Modell mit brauchbarem Fundament und sehr sichtbaren Grenzen. Die Weights-Provenienz bleibt dabei ein Governance-Faktor: Alibaba als chinesischer Entwickler bedeutet hohes Provenienz-Risiko, das bei lokalem Betrieb praktisch entschärft, aber nicht politisch unsichtbar wird.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.