LLM Model Review
· Thinking-Optional · Multimodal · Uncensored
Mit einem Gesamtscore von 73,82 % liefert Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) kein Spektakel, aber ein erstaunlich kantiges Paket: ein Vision-Language-Modell der Desktop-Klasse mit MoE-Architektur, also 35 Milliarden Gesamtparametern, von denen pro Token nur rund 3 Milliarden aktiv sind. Genau daran muss man es messen: nicht als textreines Schwergewicht, sondern als multimodalen Generalisten mit optionalem erweitertem Denken, das im Benchmark bewusst nicht aktiviert wurde. Der Speed-Profile-Badge Interactive DevOps Expert passt gut: Das Modell antwortet schnell genug für dialogische Arbeit und zeigt vor allem dort Biss, wo Struktur und technische Präzision gefragt sind. Sovereign Risk: HIGH — die Weights stammen aus einem chinesischen Community-Fine-Tune eines offenen Qwen-Modells; für das hier lokal betriebene Setup zählt vor allem die Herkunft der Gewichte und die fehlende offizielle Qualitätssicherung, nicht ein externer Cloud-Transfer.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 1/43 | Sporadisch | Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Bei einem lokalen Open-Weights-Modell dieser Klasse ist das kein API-Problem, sondern ein Warnsignal für das Setup am Hardware-Limit. |
| P95-Antwortzeit | 79.44 s | Problematisch | Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. Das Modell streut also sichtbar, auch wenn der Mittelwert im Alltag oft harmloser wirkt. |
Architektur und Charakter: viel Modell, wenig aktive Masse
Die Kategorisierung Thinking-Optional, Multimodal, Uncensored trifft den Kern ziemlich gut. Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) kann grundsätzlich in einen tieferen Denkmodus geschaltet werden, lief hier aber im Standardmodus. Das ist wichtig, weil man in den Reasoning-Aufgaben bereits sieht, dass intern mehr passiert als bei einem simplen Instruct-Modell: Antworten sind oft ausführlich, strukturiert und didaktisch. Nur fehlt manchmal der letzte Schnitt zur Eleganz. Das Modell denkt sichtbar lieber einmal zu breit als einmal zu knapp.
Gleichzeitig ist es ein Vision-Language-Modell. Dieser Benchmark misst fast ausschließlich Textleistung. Wer daraus ein vollständiges Urteil über die Gesamtkompetenz ableitet, übersieht die halbe Maschine. Das Textprofil ist also nur ein Ausschnitt, wenn auch der für viele produktive Workflows entscheidende.
Und dann ist da noch das Uncensored-Label. Hier muss man nüchtern bleiben. Ein freier, enthemmter Ton ersetzt keine Qualität. In diesem Fall scheint das Fine-Tuning die Grundfähigkeiten nicht ruiniert zu haben, was bei solchen Varianten keineswegs selbstverständlich ist. Aber gerade in sicherheitsnahen und faktenkritischen Aufgaben zeigt sich auch: weniger Filter heißt nicht automatisch mehr Verlässlichkeit. Manchmal heißt es schlicht mehr Mut zum Falschen.
Tempo und Laufverhalten
Beim Durchsatz liefert das Modell 54,36 Tokens pro Sekunde. Für ein lokales Modell auf dem NVIDIA DGX Spark (GB10 Grace Blackwell Superchip, ~115 GB Unified Memory) ist das ein respektabler Wert, zumal die MoE-Bauweise nur einen kleinen Teil der Gewichte pro Token aktiviert und damit deutlich effizienter arbeitet, als die nominelle 35B-Zahl vermuten lässt. Das macht Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) auf dem Testsystem grundsätzlich alltagstauglich.
Der Badge Interactive DevOps Expert ist dabei mehr als Dekoration. Er signalisiert ein Modell, das nicht nur schnell streamt, sondern typischerweise für dialogische Technikaufgaben, Shell-nahe Hilfe und strukturierte Arbeitskontexte taugt. Das passt. Allerdings sagt die P95-Zahl ebenso klar: Die Ausreißer sind real. In fünf Prozent der Fälle kippt die Interaktivität spürbar. Thinking-Optional-Modelle können auch ohne explizites Denkbudget intern mehr Rechenarbeit leisten. Hier ist das keine Entschuldigung, aber eine sachliche Erklärung.
Die Token-Effizienz ist überwiegend ordentlich. Kein Modul überschreitet den erwarteten Verbosity-Rahmen formal, und insgesamt verhält sich das Modell token-ökonomisch. Nur im Bereich Code Quality fällt es mit 4378 Tokens gegenüber einem Fleet-Median von 2117 auf, also gut 2,07-mal so ausführlich. Da das Modell lokal läuft, ist das vor allem ein Latenzthema. Es löst Aufgaben dort nicht mit knapper Präzision, sondern mit der textlichen Brechstange.
Code Quality und Security: stark im Befund, lückenhaft im Ernstfall
Die Code-Qualität ist eine der stärkeren Seiten des Modells, aber mit einem Haken, der gerade in Security-Kontexten weh tut. In einem Legacy-PHP-Audit identifizierte Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) 15 Schwachstellen, während der Referenzstandard 19 sah. Das klingt zunächst nach einer soliden Quote. Das Problem ist nur: Unter den verpassten Punkten sind keine Petitessen, sondern Dinge wie IDOR, fehlender CSRF-Schutz, hartkodierte Secrets und Root-Datenbankzugang ohne Passwort. Wer solche Lücken in einem Audit übersieht, hat nicht einfach nur Punkte liegen lassen. Er hat die Hintertür nicht gesehen, während er die Fußmatte beschreibt.
Positiv ist, dass das Modell die Antwort sauber formatiert, auf Deutsch liefert und viele offensichtliche Schwachstellen korrekt erkennt. SQL Injection im Login, Klartext-Passwörter, XSS, schwache Token-Generierung, Type Juggling und diverse implizite Probleme tauchen auf. Die Erklärungen sind oft gut verständlich, die Fix-Vorschläge brauchbar, und gerade bei impliziten Befunden zeigt das Modell ein gutes Auge für unsaubere Ketten.
Der qualitative Makel liegt in der Schweregrad-Bewertung. Das Modell neigt dazu, Risiken systematisch zu unterbewerten. Path Traversal als Medium statt Critical, privilegierte Cookies als High statt Critical, Auth-Bypass via loose comparison ebenfalls zu mild. Das ist kein Schönheitsfehler, sondern ein professioneller. In Security zählt nicht nur, ob man ein Leck findet, sondern ob man erkennt, ob daraus ein Wasserschaden oder ein Gebäudebrand wird.
Mildernd muss man sagen: Für ein uncensored Fine-Tune ist Security-Audit nicht der primäre Daseinszweck. Solche Modelle werden eher für freien Content-Einsatz als für hochdisziplinierte DevSecOps-Aufgaben gebaut. Trotzdem gilt im realen Einsatz: Wer mit diesem Modell Code-Audits fährt, sollte es als ersten Prüfer einsetzen, nicht als letzten Richter.
Reasoning und Logik: korrekt, ausführlich, nicht immer elegant
Im Reasoning-Modul zeigt das Modell einen Charakterzug, den man mögen kann, solange man Zeit hat: Es arbeitet gründlich. Beim klassischen Wächter-und-Türen-Rätsel liefert es die korrekte Lösung, erläutert vier Szenarien, erklärt die Doppelverneinung und strukturiert die Antwort sauber. Inhaltlich ist das richtig. Stilistisch ist es das Äquivalent zu jemandem, der nicht nur die Uhrzeit nennt, sondern kurz den Aufbau des Uhrwerks erklärt.
Das ist die gute Nachricht. Die weniger gute lautet: Diese Ausführlichkeit führt nicht immer zu mehr Einsicht. Der Judge kritisiert zu Recht, dass dem Modell oft die konzeptuelle Verdichtung fehlt. Es zeigt, dass die Lösung funktioniert, erklärt aber seltener, warum das Prinzip allgemein robust ist oder welche elegante Alternative es gibt. Das ist kein Denkfehler, sondern ein Mangel an intellektueller Ökonomie.
Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 68,28 %, was zeigt, dass die eigentliche Denkleistung besser ist als der Metacog-Schnitt vermuten lässt. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal — dieser Abzug ist methodisch gewollt.
Dazu kommt ein klar dokumentierter Sprachfehler: In einer Metakognitions-Aufgabe im Reasoning-Bereich ignorierte das Modell die explizite Sprachanweisung und antwortete auf Englisch. Das ist kein technischer Defekt, sondern eine Schwäche im Instruction Following. In Umgebungen mit fixer Zielsprache ist so etwas kein Kavaliersdelikt, sondern ein unmittelbares Produktionsrisiko.
Content Transformation und UX: produktionsnah, aber mit zu viel Luft im Text
Im Bereich Content Transformation ist Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) klar kompetent. Das Modell kann aus einer schwachen Vorlage ein brauchbares Produktionsskript bauen, inklusive Timestamps, Visual-Hinweisen, CTA, Pausenmarkern und Regieanweisungen. Die Arbeit ist verwertbar. Das ist die wichtigste Nachricht.
Aber: verwertbar ist nicht dasselbe wie präzise. In einer Video-Skript-Aufgabe baute das Modell ein funktionales Resultat, überschritt jedoch den Zielrahmen von 600 bis 900 Wörtern mit etwa 1200 bis 1400 Wörtern um rund 33 bis 50 Prozent. Das ist keine geschmackliche Kritik, sondern ein expliziter Constraint-Verstoß. Die Aufgabe warnte sogar vor unnötiger Länge, um technische Abbrüche zu vermeiden. Das Modell hörte den Hinweis und redete einfach weiter. Inhaltlich ist die Antwort ordentlich, doch der automatische Abzug greift unabhängig davon.
Gerade hier sieht man den typischen Qwen-3.6-Zug im Standardmodus: gute Struktur, brauchbare Produktionslogik, aber zu wenig Disziplin beim Kürzen. Wer redaktionelle Rohfassung will, bekommt oft etwas Brauchbares. Wer ein exakt eingeheftetes Format verlangt, muss enger führen.
In UX- und Mikrocopy-nahen Aufgaben wirkt das Modell dagegen überraschend geschmeidig. Die vorliegenden Protokolle zeigen eine saubere deutsche Neufassung, inklusive toxischer Begriffsbereinigung, inklusiver Sprache und professionellem Ton. Auffällig ist dabei die Kürze. Das Modell verdichtet stärker als viele Konkurrenten und trifft damit oft den praktischeren Ton. Nicht jede Formulierung ist ideal konventionell. „Kreativer Kopf“ ist für HR-Kontext weniger sauber als „Fachkraft“. Aber der Text funktioniert. Und das ist bei Mikrocopy meist wichtiger als theoretische Perfektion.
Dokumentation und technische Kommunikation: solide, aber nicht messerscharf
Die Dokumentationsleistung liegt im insgesamt guten Mittelfeld des Modellprofils. Mit 73,31 % im Dokumentationsbereich arbeitet Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) strukturiert, verständlich und meist ausreichend präzise für technische Alltagskommunikation. Es schreibt keine Prosa aus Gusseisen, aber es stolpert auch nicht in die üblichen Fallen aus Halbwissen und wirrem Aufbau.
Was dem Modell hier fehlt, ist weniger die Fähigkeit zur Erklärung als der letzte Hauch von redaktioneller Schärfe. Es kann Dinge geordnet darlegen. Es formuliert aber nicht immer mit jener disziplinierten Klarheit, die aus brauchbarer Doku wirklich gute Doku macht. Das ist kein Absturz, eher ein Qualitätsgefälle zur stärkeren Konkurrenz.
Cultural Intelligence: sauber, inklusiv, pragmatisch
Im Cultural-Intelligence-Modul macht das Modell vieles richtig. Die vorliegenden Auszüge zeigen eine deutsche Umschreibung, die toxische Sprache entfernt, geschlechtliche Schlagseite bereinigt und professionell bleibt. Besonders positiv fällt auf, dass es die Aufgabe ohne Meta-Kommentar erledigt. Kein erklärendes Vorspiel, keine Selbstbespiegelung, einfach der verlangte Text. Das sollte trivial sein, ist es aber erstaunlich oft nicht.
Die Schwäche liegt eher im Feintuning des Tons. Wo der Referenztext stärker einlädt und den psychologischen Willkommenscharakter einer Stellenanzeige betont, bleibt das Modell etwas nüchterner. Das ist nicht falsch. Es ist nur weniger elegant. Mit 75,6 % ist das Ergebnis gut, aber nicht exquisit.
Halluzinationen und Tool-Sicherheit: hier wird es ernst
Die eigentliche Sollbruchstelle des Modells liegt nicht im Schreiben und nicht in der Logik, sondern bei der Faktenbindung unter Tool-Kontext. Im ToolUse-Bereich erreicht Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) nur 40,83 %, und die Ursache ist klar benannt: mehrfache Halluzinationen in content-kritischen Aufgaben. In drei Fällen generierte das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten, sondern erfunden waren. Der Judge kappte den Score deshalb per Halluzinations-Cap.
Das ist kein kleiner Fleck auf dem Hemd, sondern der Fleck, wegen dem man das Hemd wechselt. Für Recherchezusammenfassungen, faktenkritische Berichte oder agentische Workflows mit Tools ist dieses Verhalten disqualifizierend. Ein Modell darf kreativ sein, wenn Kreativität bestellt wurde. Es darf nicht kreativ werden, wenn die Aufgabe lautet: Lies das Werkzeugergebnis und bleib bei den Fakten.
Diese drei Halluzinationsbefunde betreffen den ToolUse-/Recherche-Kontext und bedeuten praktisch: Das Modell verliert unter externer Evidenzbindung die Nerven. Wer es in agentischen Pipelines einsetzen will, braucht harte Guardrails, strikte Verifikation und im Zweifel ein zweites Modell als Kontrolleur. Sonst wird aus Automatisierung sehr schnell automatisierte Fiktion.
Datenschutz und Datenhoheit
Ein eigener Datenschutzblock ist hier nicht nötig, weil das Modell im Test lokal als Open-Weights-Variante lief. Relevant bleibt trotzdem die Weights-Provenienz: Das Risiko ist als HIGH eingestuft, weil es sich um einen chinesischen Community-Fine-Tune eines offenen Qwen-Modells handelt, inklusive uncensored Anpassung ohne offizielle Qualitätssicherung oder Support-Garantie. Für Unternehmen heißt das weniger Cloud-Risiko als Governance-Risiko: Man behält die Daten im eigenen Haus, übernimmt aber auch selbst die volle Verantwortung für Herkunft, Prüfung und Freigabe der Gewichte.
Fazit
Qwen 3.6 35B-A3B Uncensored HauhauCS Aggressive Q8_K_P (GGUF) ist ein charakterstarkes lokales Modell mit klaren Stärken und einer nicht zu übersehenden Schwachstelle. Es schreibt gut, transformiert brauchbar, denkt meist korrekt und arbeitet auf dem Testsystem schnell genug, um sich nicht wie eine Strafe anzufühlen. Für ein Desktop-VL-Modell mit MoE-Struktur und nur rund 3 Milliarden aktiven Parametern ist das eine ernstzunehmende Leistung. Vor allem die Balance aus Durchsatz, Sprachqualität und technischer Strukturierung verdient Respekt.
Aber der Charakter dieses Modells ist nicht der eines pedantischen Archivars. Eher der eines klugen, schnellen Assistenten, der manchmal zu viel Selbstvertrauen hat. Im Code-Audit erkennt es viel, aber nicht genug für blindes Vertrauen. Im Reasoning ist es richtig, aber oft zu ausschweifend. Und im ToolUse-Bereich halluziniert es mehrfach dort, wo Halluzinationen schlicht verboten sind.
Die Empfehlung fällt deshalb klar aus. Für lokale Content-Arbeit, technische Alltagsassistenz, CLI-nahe Hilfe, Skriptentwürfe, Umschreibungen und allgemeine Textproduktion ist das Modell gut einsetzbar. Für Security-Audits, faktenkritische Recherche, agentische Tool-Pipelines und unbeaufsichtigte Produktionsabläufe ist es in dieser Form die falsche Wahl. Wer mit ihm arbeitet, bekommt ein Modell mit Können und Kanten. Wer ihm blind glaubt, bekommt im falschen Moment erfundene Details mit überzeugender Stimme.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.