Qwen 3.5 35B-A3B Q4_K_XL (GGUF) · LLM Model Review

Mit einem Gesamtscore von 74.75% spielt Qwen 3.5 35B-A3B Q4_K_XL (GGUF) nicht die Rolle des exotischen Laborstücks, sondern die eines erstaunlich kompletten Arbeitsmodells. Der Speed-Profile-Badge Real-Time DevOps Expert passt: Dieses Modell ist schnell, strukturiert und in den praxisnahen Technikmodulen oft überzeugender als seine 35B-Gesamtgröße vermuten lässt. Zugleich muss man die Einordnung sauber halten: Wir testen hier ein Vision-Language-Modell der Workstation-Klasse mit MoE-Architektur und nur 3B aktiven Parametern pro Token. Der Textbenchmark misst also nur einen Ausschnitt seiner eigentlichen Kompetenz. Sovereign Risk: HIGH — der Modellhersteller stammt aus China; für die offenen Gewichte selbst ist das kein Cloud-Datenabfluss, aber sehr wohl ein realer Compliance-Kontext.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	40.17 s	Akzeptabel	Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar.

Stabilität ist hier kein Nebenaspekt, sondern eine Kernbotschaft. Gerade bei lokalen Open-Weights-Modellen der Workstation-Klasse entscheidet sich Praxistauglichkeit nicht nur an Qualität, sondern daran, ob das System unter Last sauber durchläuft. Qwen 3.5 35B-A3B Q4_K_XL (GGUF) tut genau das. Keine Timeouts, keine stillen Ausfälle, keine peinlichen Totalaussetzer. Das ist bei einem größeren lokalen Modell keineswegs selbstverständlich.

Architektur und Charakter: Was diese Kategorie verspricht und was sie hier einlöst

Die kuratierte Einstufung trifft den Charakter des Modells ziemlich genau. Als Thinking-Optional unterstützt Qwen 3.5 35B-A3B Q4_K_XL (GGUF) grundsätzlich einen erweiterten Denkmodus, der im Benchmark bewusst nicht aktiviert wurde. Gemessen wird also das Standardverhalten, so wie es ein typischer Nutzer ohne Spezialkonfiguration erlebt. Das ist methodisch richtig und für dieses Modell sogar aufschlussreich: Schon ohne explizites Thinking-Budget arbeitet es sichtbar mit mehr Tiefe als ein reines Instruct-Modell, ohne in bleierne Langsamkeit zu kippen.

Ebenso wichtig ist die zweite Achse: Multimodal. Qwen 3.5 35B-A3B Q4_K_XL (GGUF) ist primär ein Vision-Language-Modell, also für Bild- und Texteingaben ausgelegt. Ein textlastiger Benchmark kann deshalb nur beurteilen, wie gut das Modell als Sprach- und Arbeitsassistent funktioniert. Er sagt nicht abschließend, wie stark die visuelle Seite ist. Wer das ignoriert, bewertet einen Geländewagen nach seinem Verhalten im Parkhaus.

Die dritte Achse, Long-Context, ist nicht bloß Marketingdekor. Das Kontextfenster von 262K Tokens ist auf dem Papier groß genug für lange Dokumente, komplexe Briefings und umfangreiche Arbeitskontexte. Im vorliegenden Benchmark zeigt sich davon vor allem die Kehrseite, die erfreuliche: Das Modell gerät bei längeren Aufgaben nicht früh ins Straucheln und wirkt strukturell selten gehetzt.

Dazu kommt die Hardware- und Architektur-Einordnung. Das Modell gehört zur Workstation-Klasse, ist also kein Leichtgewicht für Consumer-Spielereien, sondern ein ernsthaftes lokales Werkzeug. Zugleich ist es ein MoE-Modell, also eine Mixture of Experts. Von 35 Milliarden Parametern sind nur 3 Milliarden aktiv. Genau diese aktive Kapazität ist der faire Maßstab. Und gemessen daran ist das Resultat bemerkenswert: Qwen spielt hier nicht wie ein 35B-Breitschwert, sondern wie ein diszipliniertes 3B-Skalpell mit ungewöhnlich guter Werkzeugkiste.

Geschwindigkeit: schnell genug, um nicht im Weg zu stehen

Auf dem lokalen Referenzsystem NVIDIA DGX Spark (GB10 Grace Blackwell Superchip, ~115 GB Unified Memory) lief Qwen 3.5 35B-A3B Q4_K_XL (GGUF) mit 69.86 Tokens pro Sekunde. Für ein lokales Workstation-Modell mit langem Kontext und multimodaler Ausrichtung ist das ein sehr starker Wert. Er erklärt auch den Badge Real-Time DevOps Expert: Das Modell ist nicht nur schnell im Rohwert, sondern schnell genug für interaktive Technikarbeit, bei der Antworten im Arbeitsfluss bleiben sollen statt nachgeliefert zu werden, wenn der Nutzer geistig schon woanders ist.

Wichtiger als absolute Sekunden ist hier das Verhältnis von Leistung zu Speicherdruck. Das Testsystem hat 115 GB Unified Memory. Für größere lokale Modelle wird diese Grenze schnell zu einer unsichtbaren Mauer, an der Geschwindigkeit durch Auslagern in den Keller fällt. Qwen 3.5 35B-A3B Q4_K_XL (GGUF) bleibt davon verschont. Die Q4_K_XL-Quantisierung macht das Modell auf einer Workstation überhaupt erst alltagstauglich. Man bezahlt dafür etwas Qualität gegenüber höheren Präzisionen, bekommt aber ein lokales System, das tatsächlich reagiert statt nur zu existieren.

Dass ein Thinking-Optional-Modell trotz Standardmodus etwas mehr interne Verarbeitung betreiben kann, sollte man im Hinterkopf behalten. Umso erfreulicher ist, dass Qwen daraus keinen Bremsklotz macht. Es denkt nicht sichtbar laut, aber oft schnell genug richtig.

Token-Ökonomie: kein Schwätzer, kein Sparfuchs aus Geiz

Die Token-Effizienz ist eine stille Stärke. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. In CLI, Cultural Intelligence und UX Writing arbeitet das Modell sogar unter dem Median der Testflotte. In Content Transformation, Documentation Quality und Code Quality liegt es praktisch auf Schnitt. Das bedeutet bei einem lokalen Modell vor allem eines: weniger Leerlauf, weniger künstliche Aufblähung, weniger Zeitverlust durch Textmasse, die nichts trägt.

Bemerkenswert ist das vor allem im Reasoning-Bereich. Dort verbraucht das Modell im Schnitt 1412 Tokens gegenüber einem Fleet-Median von 916. Das ist kein Regelverstoß, weil dieses Modul vom Budget ausgenommen ist. Es passt aber ins Charakterbild: Qwen neigt bei Denkaufgaben zu ausführlicherer Entfaltung. Solange die Qualität stimmt, ist das kein Makel. Es ist eher ein Hinweis darauf, dass hier intern mehr passiert als bei den nüchternsten Antwortmaschinen.

Code Quality: technisch versiert, aber nicht vollständig genug für den Security-Prüfer

Der Code-Quality-Wert von 72.5 ist gut, aber nicht makellos. Das qualitative Sicherheitsprotokoll zeigt sehr klar, woran es hapert: Qwen 3.5 35B-A3B Q4_K_XL (GGUF) erkennt viele reale Schwachstellen sauber, formuliert brauchbare Fixes und hält das geforderte Markdown-Tabellenformat korrekt ein. Das ist die gute Nachricht. Die weniger gute ist, dass ihm in einem anspruchsvollen Security-Audit die letzte Vollständigkeit fehlt.

Im konkreten PHP-Sicherheitsaudit listete das Modell 11 von 19 erwarteten Schwachstellen. Das ist keine Kleinigkeit, sondern eine Deckungslücke von rund 42 Prozent. Besonders problematisch: Mehrere kritische Funde wurden entweder gar nicht separat benannt oder in ihrer Schwere zu niedrig angesetzt. Plaintext-Passwörter fehlten als eigener Punkt. Path Traversal wurde nur als „High“ gewertet, obwohl der praktische Effekt bis zum beliebigen Dateilesen reicht. Die unsichere Cookie-basierte Authentisierung wurde ebenfalls zu milde behandelt. Ein Security-Modell muss nicht jedes Detail mit dramatischem Ton markieren. Aber es muss wissen, wo der Fußboden endet.

Dafür liefert das Modell oft vernünftige Abhilfen. Prepared Statements, CSRF-Tokens, Zufallstoken für Passwort-Resets und Mail-Header-Validierung sitzen im Wesentlichen richtig. Auch die vertiefte Analyse impliziter Schwachstellen gelingt ihm ordentlich. Was fehlt, ist der Blick für Angriffsketten. Die Goldreferenz verband einzelne Lücken zu realistischen Exploit-Pfaden. Qwen bleibt eher beim Inventar als beim Einbruchsszenario. Für Entwickler ist das nützlich. Für Sicherheitsverantwortliche ist es noch nicht genug.

Unterm Strich gilt: Für Code-Reviews, Bug-Hinweise und strukturierte Sicherheits-Erstanalysen ist das Modell brauchbar. Für ernsthafte AppSec-Freigaben sollte niemand auf die Idee kommen, es ohne menschliche Nachschärfung als Abschlussinstanz zu benutzen.

CLI und Tool-Nähe: ein Modell mit Arbeitsgriff

Der CLI-Benchmark-Wert von 91.67 gehört zu den klaren Stärken. Auch ohne vollständige Einzelprotokolle lässt sich das Profil ablesen: Qwen 3.5 35B-A3B Q4_K_XL (GGUF) ist in kompakten, präzisen Technikaufgaben stark, gerade dort, wo klare Befehle, konkrete Struktur und praktische Umsetzbarkeit zählen. Das passt hervorragend zu seinem Badge und erklärt, warum das Modell als lokales DevOps-Werkzeug ernst genommen werden sollte.

Allerdings steht hier auch der schärfste Halluzinationsbefund des gesamten Reviews. In einer Tool-Use-Aufgabe generierte das Modell Inhalte, die nicht aus dem tatsächlich abgerufenen Tool-Ergebnis stammten, sondern erfunden waren. Der Score wurde deshalb durch eine Halluzinationsgrenze gedeckelt. Für content-kritische Aufgaben wie Recherche, Faktenberichte oder jede Form von agentischer Tool-Auswertung ist das kein Schönheitsfehler, sondern ein Alarmsignal. Sobald ein Modell Werkzeugausgaben nicht nur zusammenfasst, sondern ergänzt, als hätte es Quellenrechte auf Fantasie, wird es gefährlich nützlich. Solche Systeme wirken kompetent, bis sie Schaden anrichten.

Das heißt nicht, dass Qwen als Tool-Modell untauglich wäre. Es heißt nur: Bei Tool-Rückgaben, Logs, Befehlsresultaten und externen Quellen muss die Kette verifiziert bleiben. Vertrauen ja. Blindflug nein.

Reasoning und Logik: oft klug, gelegentlich unnötig widerspenstig

Mit 70.18 im Logical-Reasoning-Modul liegt Qwen 3.5 35B-A3B Q4_K_XL (GGUF) in einer respektablen Zone. Es löst klassische Logikaufgaben korrekt, erklärt nachvollziehbar und zeigt mehrstufiges Denken ohne die selbstverliebte Langatmigkeit mancher „Reasoning“-Marken. Im Wächterrätsel etwa kam die richtige Lösung sauber heraus, inklusive Fallunterscheidung. Was fehlte, war nicht die Logik, sondern die didaktische Politur. Das Modell erklärt richtig, aber nicht immer elegant.

Wichtiger ist hier ein Compliance-Makel, der in realen Arbeitsumgebungen härter trifft als in Schulbuchlogik. In einer metakognitiven Aufgabe ignorierte das Modell die explizite Sprachanweisung und antwortete auf Englisch, obwohl Deutsch verlangt war. Das ist kein technischer Defekt, sondern eine Schwäche im Instruction-Following. In Umgebungen mit fester Zielsprache, etwa Kundenkommunikation, Dokumentation oder regulierten Workflows, kann so ein Ausreißer direkt zum Fehlschlag werden.

Dazu kommt ein formaler Widerspruch im Prüfprotokoll selbst: Der Judge attestiert inhaltlich deutsche Endantwort und gute Lösung, gleichzeitig wurde systemseitig ein LANGUAGE MISMATCH registriert. Für die redaktionelle Bewertung zählt die harte Benchmark-Realität: Diese Aufgabe lief nicht sauber als success durch. Wer das Produktivrisiko verstehen will, sollte sich nicht am wohlwollenden Kommentar festhalten, sondern am nackten Ergebnis. Das Modell hat die Sprachinstruktion in mindestens einem relevanten Fall nicht robust genug gehalten.

In derselben Aufgabe schlug auch ein automatischer Constraint-Befund an: Das System markierte eine Sprachabweichung, weil Englisch statt der geforderten Zielsprache erkannt wurde. Die inhaltliche Qualität der Antwort ist damit zweitrangig. In produktiven Ketten mit festem Sprachziel ist so ein Verstoß ein echter Betriebsfehler, kein akademischer Punktabzug.

Trotzdem bleibt das Grundurteil zum Denken positiv. Qwen ist kein Hochglanz-Philosoph, aber ein brauchbarer Problemlöser. Es denkt ordentlich, oft tief genug und ohne Showdrang. Nur auf perfekte Format- und Sprachdisziplin sollte man sich nicht blind verlassen.

Content Transformation: stark in Umbauarbeit, mit einem Hang zum leichten Überziehen

Mit 76.4 gehört Content Transformation zu den besten Feldern des Modells. Das ist kein Zufall. Hier profitiert Qwen 3.5 35B-A3B Q4_K_XL (GGUF) von seiner Mischung aus Struktur, Tonkontrolle und ausreichend langem Kontext. Besonders sichtbar wird das im Videoskript-Protokoll: Das Modell liefert ein vollständiges deutschsprachiges Skript mit Analyse, Screen-Anmerkungen, B-Roll-Hinweisen, Musik-Cues, Troubleshooting, CTA und Easter Egg. Das ist handwerklich solide und in der Praxis sofort brauchbarer als vieles, was in diesem Segment sonst aus Modellen fällt.

Die Schwächen liegen in der Präzision. Im geprüften Skript überlappten Zeitstempel. Zwei Segmente teilten sich 15 Sekunden. Das klingt banal, ist in einem Produktionsdokument aber ein echter Fehler. Außerdem setzte das Modell den Pattern Interrupt zu spät. Die Idee war vorhanden, nur nicht dort, wo Nutzerbindung tatsächlich kippt. Das ist typisch Qwen in diesem Benchmark: gute Substanz, aber nicht immer perfekt auf den letzten Meter optimiert.

Hinzu kommt ein harter Regelverstoß in einer anderen Aufgabe dieses Moduls. In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern um 31 Prozent. Statt 250 lieferte es 327 Wörter. Das System verhängte dafür einen automatischen Abzug von 12.40 Punkten beziehungsweise 20 Prozent auf den erreichbaren Teilscore. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Wer Content in feste Formate für CMS, Anzeigenflächen oder regulierte Textbausteine pressen muss, sollte genau hier hellhörig werden. Qwen schreibt gern passend. Aber wenn mehrere Bedingungen gleichzeitig greifen, verliert es das Wortlimit schneller als den Faden.

Documentation Quality: zuverlässig im Mittelfeld der Profiklasse

Der Dokumentationswert von 70.58 ist weniger spektakulär als die CLI- oder Content-Leistung, aber immer noch ordentlich. Die Token-Nutzung liegt praktisch exakt auf Fleet-Niveau, was zu einem nüchternen Befund führt: Qwen dokumentiert ohne großen Stilzirkus und ohne ineffiziente Textfahnen. Das ist im Alltag oft wertvoller als blendende Einzelpassagen.

Das Modell profitiert hier sichtbar vom langen Kontext und seiner geordneten Antwortstruktur. Es neigt nicht zu der hektischen Kürze vieler kleinerer Instruct-Modelle, die Dokumentation auf eine Notiz verwechseln. Gleichzeitig fehlt ihm offenbar manchmal die letzte editoriale Schärfe, die aus solider Dokumentation eine wirklich exzellente macht. Wer saubere interne Dokus, Betriebsnotizen oder technische Erklärtexte braucht, bekommt mit Qwen ein verlässliches Arbeitstier. Wer aus Rohmaterial veröffentlichungsreife Premium-Dokumentation erwartet, sollte redaktionell nacharbeiten.

UX Writing und Microcopy: erstaunlich treffsicher

Mit 74.35 ist UX Writing eine stille Stärke. Das überrascht nicht völlig, wohl aber angenehm. Viele technisch gute Modelle sprechen mit Nutzern, als wollten sie ein Formular beaufsichtigen. Qwen 3.5 35B-A3B Q4_K_XL (GGUF) macht das besser. Es bleibt relativ knapp, hält sich mit unnötiger Erklärprosa zurück und verliert die Nutzerperspektive nicht sofort aus den Augen.

Die Modulmetriken sprechen ebenfalls dafür: sehr niedriger Tail, keine Timeouts, moderate Tokenmenge. Das deutet auf einen Bereich hin, in dem das Modell nicht kämpfen muss, sondern arbeitet. Es schreibt keine legendäre Markensprache. Aber es produziert brauchbare, kontrollierte Mikrotexte ohne die übliche KI-Krankheit, jeden simplen Hinweis in eine Mini-Abhandlung zu verwandeln.

Cultural Intelligence: sprachlich sicher, tonal meist richtig, noch nicht ganz fein genug

Im Cultural-Intelligence-Modul erzielt Qwen 75.6 und zeigt damit, dass es auf Deutsch nicht nur funktionieren, sondern auch umschreiben kann. Das Protokoll zur inklusiven Stellenanzeige ist ein gutes Beispiel. Das Modell entfernt aggressive und toxische Begriffe, nutzt genderneutrale Formulierungen und hält die Deutsch-vorgabe sauber ein. Inhaltlich ist das stark.

Was fehlt, ist die letzte idiomatische Wärme. Der Judge beschreibt den Text als professionell, aber etwas formeller und bürokratischer als die Referenz. Genau das trifft es. Qwen kann problematische Sprache zuverlässig entschärfen. Es trifft jedoch nicht immer die einladende, moderne Tonalität, die in deutschen Recruiting-Texten den Unterschied zwischen „formal korrekt“ und „wirklich gut“ ausmacht. Das ist keine Blamage. Es ist nur der Abstand zwischen solidem Sprachdienst und stilistischer Reife.

Halluzinationen und Vertrauensprofil

Die Halluzinationsfrage lässt sich hier nicht mit einem beruhigenden Einzeiler abräumen, weil es einen konkreten Treffer gab. Der erwähnte Tool-Use-Fall ist ernst genug, um das Vertrauensprofil sichtbar zu beschädigen. Außerhalb dieses Befunds wirkt das Modell in den Textmodulen eher kontrolliert als fabulös. Es erfindet nicht ständig, aber wenn es im Werkzeugkontext halluziniert, trifft es genau den Bereich, in dem faktische Korrektheit nicht verhandelbar ist.

Deshalb lautet das faire Urteil: Im reinen Schreib- und Analysebetrieb meist hinreichend verlässlich. Bei Tool-Ausgaben, sicherheitsrelevanten Diagnosen und faktenkritischen Synthesen nur mit Leitplanken. Das Modell ist kein notorischer Phantast. Aber es hat gezeigt, dass es im falschen Moment zu viel ergänzt.

Datenschutz und Datenhoheit

Entfällt als eigener Cloud-Abschnitt, weil dieses Modell im Benchmark lokal mit offenen Gewichten betrieben wurde. Relevant bleibt dennoch die Provenienz: Das Weights-Provenienz-Risiko ist als MEDIUM eingestuft. Die Gewichte stammen offen vom Qwen-Team, die Risiken liegen primär im Herkunfts- und Compliance-Kontext, nicht in intransparenter Distribution.

Fazit

Qwen 3.5 35B-A3B Q4_K_XL (GGUF) ist eines dieser Modelle, die man leicht unterschätzen könnte, wenn man nur auf die Quantisierung schaut. Das wäre ein Fehler. Im Benchmark zeigt es ein bemerkenswert erwachsenes Profil: schnell, lokal stabil, token-ökonomisch, stark in CLI, gut in Content-Transformation, ordentlich im Reasoning und brauchbar in Code- und Dokumentationsarbeit. Für ein Vision-Language-Modell der Workstation-Klasse mit MoE-Struktur und nur 3B aktiven Parametern ist das mehr als respektabel. Es ist ein echter Arbeitskandidat.

Die Schwächen sind aber nicht kosmetisch. Security-Analysen bleiben teils unvollständig, Sprach-Compliance ist nicht absolut narrensicher, Wortlimits werden nicht immer sauber respektiert, und die Tool-Halluzination ist für agentische oder faktenkritische Workflows ein roter Marker. Genau dort zeigt sich der Charakter dieses Modells: kein Blender, kein Chaot, aber auch kein System, dem man ohne Absicherung die Schlüssel zum Maschinenraum geben sollte.

Für lokale DevOps-, Automations-, Dokumentations- und Transformationsaufgaben ist Qwen 3.5 35B-A3B Q4_K_XL (GGUF) eine ernsthafte Empfehlung. Für Security-Audits, Tool-verankerte Recherche und streng formatierte Produktionsketten gilt: einsetzen ja, aber mit Verifikation. Dieses Modell arbeitet schnell und oft klug. Es hat nur nicht in jedem Moment den absoluten Perfektionismus, den es manchmal selbst ausstrahlt.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.