LLM Model Review
Erstellt am · Thinking-Optional · General · Multimodal · Long-Context
Mit einem Gesamtscore von 72.83% ist Qwen 3.5 397B A17B kein Blender, sondern ein ernstzunehmender Cloud-Allrounder mit Ecken und Kanten. Als Vision-Language-Modell in der Frontier-Klasse und mit MoE-Architektur ist es allerdings kein fairer Eins-zu-eins-Gegner für reine Textmodelle: Die 397 Milliarden Gesamtparameter klingen nach Dampfhammer, relevant sind hier die 17 Milliarden aktiven Parameter, die pro Schritt tatsächlich arbeiten. Der Speed-Profile-Badge Interactive Tool Expert passt: Mit 16.49 Tokens pro Sekunde arbeitet das Modell interaktiv genug für anspruchsvolle Assistenzaufgaben, aber nicht so flink, dass man seine Denkpfade mit Leichtfüßigkeit verwechseln sollte. Sovereign Risk: HIGH — Alibaba Cloud unterliegt chinesischem Recht; für europäische Nutzer bedeutet das ein Drittlandtransfer-Risiko unter PIPL/CSL/DSL und potenziellen staatlichen Zugriff im Rahmen des chinesischen Sicherheitsrechts.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 1/43 | Sporadisch | Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Für ein kommerzielles Cloud-Modell ist selbst ein einzelner Ausfall kein Betriebsunfall, sondern ein API-Risiko. |
| P95-Antwortzeit | 92.15 s | Problematisch | Signifikante Ausreißer, die den Arbeitsfluss unterbrechen. In fünf Prozent aller Anfragen wartete der Nutzer über anderthalb Minuten auf eine Antwort. |
Architektur und Charakter: viel Kontext, viel Anspruch, nicht immer viel Disziplin
Die vorab vergebene Einordnung trifft den Kern erstaunlich gut. Qwen 3.5 397B A17B ist ein Generalist mit Multimodalität und Long-Context-Fokus, also ein Modell für breite Assistenz, Dokumentarbeit und visuelle Aufgaben, nicht bloß für schmale Chat-Snacks. Genau deshalb muss man den Textbenchmark mit doppelter Optik lesen: Einerseits liefert er valide Aussagen über Sprache, Logik, Code und Instruktionsdisziplin. Andererseits zeigt er eben nur einen Ausschnitt der eigentlichen Kompetenz, weil Bild- und Videoverständnis hier kaum ausgespielt werden.
Wichtiger ist die zweite Achse: Thinking-Optional. Extended Thinking wäre per API aktivierbar, im Benchmark lief Qwen 3.5 397B A17B aber bewusst im Standardmodus. Das ist keine Kleinigkeit. Ein solches Modell kann auch ohne explizites Thinking-Budget intern aufwendiger arbeiten als ein klassisches Instruct-Modell. Die gemessene Latenz ist daher kein Defekt, sondern Teil seines Temperaments. Trotzdem gilt: Wer in der Cloud bezahlt, bezahlt nicht für Temperament, sondern für verlässliche Leistung.
Die MoE-Struktur relativiert zudem den nackten Parameterfetisch. 397B Gesamtparameter lesen sich nach absoluter Oberklasse. Aktiv sind aber 17B. Das erklärt, warum das Modell in mehreren Disziplinen stark, aber nicht dominierend wirkt. Es spielt klug, nicht brachial.
Performance und Preis: interaktiv, aber nicht billig schnell
Der Badge Interactive Tool Expert beschreibt den wahrscheinlichen Sweet Spot gut: Qwen 3.5 397B A17B ist kein Batch-Maultier, das man geduldig nachts rechnen lässt, und auch kein Hyper-Speed-Modell für Mikrointeraktionen im Sekundentakt. Mit 16.49 Tokens/s liegt es in einem Bereich, der für dialogische Arbeit noch angenehm ist, bei längeren Antworten aber spürbar Zeit kostet. Zusammen mit der problematischen Tail-Latenz ergibt sich ein klares Bild: Im Mittel arbeitet es ordentlich, in den Ausreißern nervt es.
Die Preise von 0.39 Dollar pro 1 Million Input-Tokens und 2.34 Dollar pro 1 Million Output-Tokens sind für ein Frontier-Cloud-Modell nicht absurd, aber auch kein Kampfpreis. Die gute Nachricht lautet: Qwen 3.5 397B A17B verhält sich token-ökonomisch. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Im CLI-Bereich liegt es mit durchschnittlich 99 Output-Tokens sogar deutlich unter dem Fleet-Median von 219, bei Dokumentation mit 1732 zu 2494 ebenfalls klar darunter. Das Modell schreibt also meist so viel wie nötig und nicht aus Eitelkeit noch eine halbe Broschüre hinterher. In einer API-Welt ist das keine Nebensache, sondern bares Geld.
Code Quality: sauberer Blick, begrenzte Tiefenschärfe
Im Modul Code Quality erreicht Qwen 3.5 397B A17B 70.88%. Das ist kein schlechtes Ergebnis, aber auch keines, das Sicherheitsteams spontan den Kaffee absetzen lässt. Der qualitative Befund ist klar: Das Modell erkennt viele Schwachstellen zuverlässig, strukturiert sie sauber in Tabellenform und bleibt sprachlich präzise. Im vorliegenden Audit benennt es 15 Sicherheitsprobleme, darunter SQL-Injection, Klartext-Passwörter, XSS, Path Traversal, IDOR, schwache Tokens und Type Juggling in PHP. Das ist die Sorte Antwort, mit der man arbeiten kann.
Die Schwäche sitzt nicht im Erkennen des Offensichtlichen, sondern im letzten Drittel technischer Gründlichkeit. Der Golden Standard sah 19 Schwachstellen; Qwen 3.5 397B A17B ließ unter anderem CSRF-Schutz, Token-Ablauf, Remember-Me-Fehlkonfigurationen und Details zur Header-Behandlung liegen. Auch bei der Kategorisierung wurde es stellenweise unsauber. Session Fixation etwa wurde eher umschrieben als sauber als Angriffsmuster gefasst. Das ist kein Totalausfall, aber es trennt den kompetenten Auditor vom routinierten Incident-Responder.
Positiv ist die Form. Die Markdown-Tabelle sitzt, die Sprache bleibt durchgehend deutsch, die Fix-Vorschläge sind knapp und brauchbar. Negativ ist die Tiefe. Wo der Maßstab Expertendetail fordert, liefert Qwen 3.5 397B A17B oft die richtige Überschrift, aber nicht immer den letzten präzisen Satz darunter. Für Security-Reviews heißt das: gut als Erstscan, zu flach als letzte Instanz.
CLI und Tool-Nähe: überraschend stark
Der CLI-Score von 83.67% und der ToolUse-Score von 68.0% deuten auf ein Modell, das im operativen Maschinenraum besser zurechtkommt, als der eher moderate Gesamteindruck vermuten lässt. Das passt wiederum zum Badge. Qwen 3.5 397B A17B ist offensichtlich kein poetischer Plauderer, sondern mag strukturierte, technische Handlungsräume.
Dass es im CLI-Bereich so kompakt antwortet, ist ebenfalls ein gutes Zeichen. Kurze Shell-Antworten sind nur dann nützlich, wenn sie präzise bleiben. Die Daten sprechen dafür, dass Qwen hier eher zielgerichtet als geschwätzig arbeitet. Für Agenten- oder Tool-Workflows ist das wertvoll. Nicht jede Aufgabe braucht einen Aufsatz, viele brauchen den einen richtigen Befehl.
Reasoning und Logik: inhaltlich stark, didaktisch nicht ganz auf Lehrbuchniveau
Mit 75.58% im logischen Reasoning zeigt Qwen 3.5 397B A17B, dass sein Denken nicht bloß Behauptung ist. Das Beispiel mit den zwei Wächtern löst das Modell korrekt, in sauberem Deutsch und mit nachvollziehbarer Schrittfolge. Es analysiert den Aufbau des Problems, prüft Fälle und kommt zuverlässig zur klassischen Gegenfrage. Das ist substanziell richtig und mehr als nur ein erratener Standardtrick.
Die Schwäche liegt auch hier in der Tiefe der Aufbereitung. Der Judge lobt die klare Struktur, bemängelt aber fehlende konzeptionelle Einordnung wie die explizite Erklärung der doppelten Inversion und alternative Formulierungen derselben Strategie. Anders gesagt: Qwen findet den Ausgang. Es erklärt aber nicht immer mit der Ruhe eines guten Mathematiklehrers, warum der Schlüssel auch in ähnlichen Räumen funktioniert.
Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien reasoning_5*-Tests erzielt das Modell einen Durchschnittsscore von ca. 75.58%, was dem Niveau anderer starke Generalisten entspricht. CrucibleMark bewertet bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal. Dieser Abzug ist methodisch gewollt.
Das ist mehr als ein kosmetischer Makel. In Produktivumgebungen, in denen Formate strikt eingehalten werden müssen, zählt eben nicht nur die richtige Idee, sondern auch die Bereitschaft, sie in der geforderten Hülle zu liefern.
UX Writing: professionell, aber mit zu viel Krawatte
Hier fällt Qwen 3.5 397B A17B sichtbar ab. 64.15% im UX-Writing sind für ein Frontier-Modell kein Ruhmesblatt. Das qualitative Bild ist konsistent: Das Modell schreibt klar, logisch und ordentlich, aber es klingt oft wie ein guter Berater, der den Raum verstanden hat, ohne ihn wirklich zum Leuchten zu bringen.
Im protokollierten Beispiel zu Mikrocopy und Workflow-Erklärung erledigt es die Pflicht gut. Sprache einfach, Struktur sauber, Optimierungsschritte nachvollziehbar. Was fehlt, sind emotionale Kalibrierung, psychologische Präzision und ein Gefühl für Interface-Dramaturgie. Der Judge benennt das treffend: professionell und klar, aber weniger einnehmend, weniger dialogisch, weniger verspielt als der Golden Standard. Das Modell bevorzugt häufiger das förmlichere „Sie“, wo modernes Produkt-UX oft das direkte „du“ und klarere Aktivierungssignale verlangt.
Das ist kein Totalschaden. Aber UX Writing ist eben die Disziplin, in der „formal korrekt“ und „gut“ nicht dasselbe sind. Qwen 3.5 397B A17B formuliert, als wolle es niemanden stören. Gute Mikrocopy darf ruhig etwas mehr Leben haben.
Documentation Quality: nützlich, aber nicht auf Referenzniveau
Mit 64.11% bei der Dokumentationsqualität bestätigt sich das Muster. Qwen 3.5 397B A17B kann strukturieren, erklären und in brauchbare Arbeitsdokumente übersetzen. Was ihm fehlt, ist jene letzte editorische Schärfe, die aus guter Doku eine Referenz macht. Bei einem Modell dieser Klasse ist das enttäuschend, weil Dokumentation zu den Feldern gehört, in denen Long-Context-Modelle eigentlich glänzen sollten.
Die Token-Ökonomie ist zwar vorbildlich, im Schnitt 1732 statt 2494 Tokens des Fleet-Medians. Doch Kürze allein ist keine Qualität. Der Eindruck aus den übrigen Protokollen zieht sich hier fort: Das Modell setzt vieles richtig auf, liefert aber zu selten den Extrapunkt in Form von stärkerer Hierarchie, präziserem Nutzerblick oder höherer inhaltlicher Dichte.
Content Transformation: starkes Handwerk, gute Produktionsnähe
Besser sieht es im Bereich Content Transformation aus. Mit 76.65% gehört Qwen 3.5 397B A17B hier zu seinen überzeugenderen Disziplinen. Besonders die Video-Skript-Aufgabe zeigt, dass das Modell Produktionslogik versteht. Es arbeitet mit Zeitmarken, Sprechertext, visuellen Hinweisen, Regieanweisungen und Publikumsbindung. Es produziert keinen wolkigen Marketingbrei, sondern Material, mit dem ein Creator tatsächlich weiterarbeiten kann.
Bemerkenswert ist die Balance aus Struktur und Pragmatismus. Während der Golden Standard analytisch tiefer war, traf Qwen die eigentliche Produktionsrealität ziemlich gut. Hook, Pattern Interrupt, CTA, Bildschirmhinweise und sogar ein eigenständigeres Easter-Egg-Konzept waren vorhanden. Das wirkt nicht genial, aber einsatznah. Für Content-Umbau, Skripting und Adaption ist das ein valider Einsatzbereich.
Cultural Intelligence: respektvoll, meist treffsicher, aber mit einem ernsten technischen Schatten
Mit 82.0% ist Cultural Intelligence eine der stärksten Domänen des Modells. Das ist wichtig, denn viele große Modelle können zwar Sprache glätten, verlieren aber bei inklusiver, kulturell sensibler Umarbeitung entweder den Ton oder die Präzision. Qwen 3.5 397B A17B zeigt hier meist ein gutes Gleichgewicht. Im protokollierten Beispiel zu einer diskriminierenden Stellenanzeige entfernt es aggressive und exkludierende Sprache zuverlässig, hält die Ausgabe strikt auf Deutsch und trifft einen professionellen, neutralen Stil.
Die Kehrseite ist dieselbe, die schon im UX-Writing auffiel: Wärme fehlt häufiger als Kompetenz. Der Judge beschreibt den Text als korrekt und sicher, aber etwas klinisch. Das Modell säubert sauber, motiviert aber nicht immer überzeugend nach. Wer Employer Branding oder öffentlich sichtbare Kampagnentexte schreibt, wird diese Zurückhaltung bemerken.
In einer Aufgabe im Cultural-Intelligence-Bereich wurde es allerdings strukturell brenzlig: Interne Denkprozesse verdrängten das Ausgabe-Budget vollständig. Das System registrierte 0 verbleibende Output-Tokens, bevor die Antwort überhaupt sichtbar werden konnte. Inhaltliche Qualität spielt dann keine Rolle mehr. Die Antwort ist nicht falsch, sie kommt schlicht nicht an. Für Agenten-Frameworks und automatisierte Pipelines ist genau das die Sorte Fehler, die im Betrieb hässlicher wirkt als in einer Benchmark-Tabelle.
Halluzinationen und Sicherheitsgefühl
Qwen 3.5 397B A17B wirkt über die Benchmarks hinweg nicht wie ein Modell, das mit großer Geste Dinge erfindet. Es schwächelt eher durch Auslassung, Formalitätsdrift oder technische Unvollständigkeit als durch freidrehende Fantasie. Das ist in sicherheitsnahen und dokumentationslastigen Kontexten die angenehmere Schwäche. Ein Modell, das nicht jeden weißen Fleck mit selbstbewusster Fiktion ausmalt, spart dem Nutzer echte Reparaturarbeit.
Datenschutz und Datenhoheit
Qwen 3.5 397B A17B wurde hier als kommerzielles Cloud-Modell über die Infrastruktur von Alibaba Cloud / Qwen-Diensten betrachtet. Für europäische Unternehmen ist das keine Fußnote, sondern eine Governance-Frage. Das berechnete Sovereign Risk liegt bei HIGH. Begründung: Entwickler und Provider sitzen in China, die Verarbeitung unterliegt chinesischem Recht mit PIPL, CSL und DSL; hinzu kommt das in der Model-Card benannte Risiko staatlichen Zugriffs im Rahmen des chinesischen National Security Law.
Der angegebene Datenstandort ist China, ergänzt um regionale Rechenzentren weltweit. Für Nutzer aus Deutschland und der EU bedeutet das ein Drittlandtransfer-Risiko ohne EU-Angemessenheitsbeschluss. Eine GDPR-DPA ist verfügbar, was für Unternehmen zumindest die vertragliche Basis verbessert. Die Datenspeicherungsdauer ist öffentlich jedoch nicht klar ausgewiesen; in den Card-Daten steht hierfür -1 Tage, also praktisch keine belastbare Transparenz. Das Weights-Provenienz-Risiko ist ebenfalls HIGH und deckt sich hier mit der Deployment-Situation: chinesische Gewichte, chinesischer Anbieter, chinesische Jurisdiktion. Wer mit sensiblen Kunden-, Vertrags- oder Mitarbeiterdaten arbeitet, sollte dieses Modell nur mit sehr bewusstem Risikomanagement einsetzen.
Fazit
Qwen 3.5 397B A17B ist ein interessantes Frontier-Modell mit klar erkennbarem Charakter. Es ist stark in Logik, Cultural Intelligence, CLI-naher Arbeit und Content-Transformation, ordentlich in Code-Reviews und schwächer bei UX-Feinschliff und Dokumentations-Exzellenz. Seine MoE-Architektur mit 17B aktiven Parametern erklärt dabei gut, warum es oft klug wirkt, ohne alles zu dominieren. Als Vision-Language-Generalist ist es zudem breiter angelegt, als ein Textbenchmark vollständig abbilden kann. Gerade deshalb ist der Gesamteindruck respektabel, aber nicht makellos.
Für den Einsatz heißt das: gut geeignet für technische Assistenz, strukturierte Inhaltsbearbeitung, Tool-nahe Workflows und breit angelegte Wissensarbeit mit langen Kontexten. Weniger geeignet ist es dort, wo maximale Formatdisziplin, konsistent geringe Tail-Latenz oder besonders feinfühliges UX-Writing verlangt werden. Die problematische P95-Latenz und der einzelne API-Aussetzer sind keine Katastrophe, aber auch nichts, was man wegmoderieren sollte. Über alle Tests hinweg keine nennenswerten Halluzinationen. Das Modell erfindet lieber zu wenig Tiefe, als sich mit falscher Sicherheit zu blamieren. Wer mit der chinesischen Jurisdiktion leben kann und ein multimodales, ernsthaft brauchbares Cloud-Modell sucht, bekommt hier kein Wunderwerk, aber ein Werkzeug mit Substanz.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.