Qwen 3.5 397B A17B

Qwen 3.5 397B A17B ist Alibabas erstes nativ multimodales Open-Weights-Frontier-Modell mit Verarbeitung von Text, Bild und Video in einem einzigen Modell. Die hybride Architektur aus Gated DeltaNet und Sparse MoE aktiviert pro Token nur 17 Milliarden der insgesamt 397 Milliarden Gesamtparameter, das Kontextfenster umfasst 256.000 Tokens. Unter Apache-2.0-Lizenz vollständig kommerziell nutzbar.

Alibaba Version 3.5 Kommerzielle Nutzung erlaubt MoE 397 B (17 B aktiv) 262 K Context 12/2025 $0.39 / $2.34 per 1M

Open Weights
Frontier
OR
Text
Vision
Instruction-Tuned
Agentic Orchestrator
Batch

Sovereign Risk: MEDIUM Alibaba Cloud ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL). Bei Nutzung der Alibaba-Cloud-API ist staatlicher Zugriff auf übertragene Daten möglich. Rein lokale Inferenz mit öffentlichen Open-Weights reduziert dieses Risiko erheblich – CLOUD-Act-Analogon (NSL) ist nur bei Cloud-API-Nutzung direkt relevant.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	20	52
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 3.19; First Request

MCP: 0.86; Protocol Latency

Synthesis: 29.63; Response Generation

Total: 202.03; Sum of All Phases

Token: 5442; Input + Output

Cost: $0.0052; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Nutzung verlässlich wirkt und keine Halluzination erkannt wurde, die Synthesequalität mit Combined 78.80 aber nicht stabil genug für hochkritische Ergebnisverdichtung ist.

Tool-Execution-Profil

Qwen 3.5 397B A17B verhält sich auf der Ausführungsebene produktionsnah. Tool-Calls waren valide, MCP-konform und ohne Retry. Das ist der wichtigste Basisschutz für eine Tool-Pipeline. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Fetch prüft, erkennt das Modell die passende Werkzeugklasse sicher. Das spricht gegen ein starres Call-Muster und für echte Werkzeugwahl. Beim URL-Construction-Test konstruiert es die Ziel-URL brauchbar, aber nicht präzise genug für deterministische Pipelines mit enger Fehlertoleranz. Die Ausführung ist damit stark, aber nicht blind vertrauenswürdig, wenn der Pfad aus Modellwissen abgeleitet werden muss.

Wichtig zur Einordnung: Das Modell ist primär ein Vision-Language-System. Die hier sichtbare Text-Tool-Kompetenz ist deshalb belastbar, bildet aber nicht seine volle Produktfläche ab.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Solide, aber nicht auf Frontier-Niveau. P2 von 68 zeigt, dass es gefundene Informationen oft korrekt zusammenführt, dabei aber an Präzision verliert. Das sieht man besonders im Test Multilingual Search & Synthesis, der sprachübergreifende Recherche und deutsche Zusammenfassung prüft: Die Suche gelingt, die Verdichtung bleibt deutlich hinter der Ausführung zurück.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Dazu gibt es im Honeypot EU License Research keine Daten. Positiv ist nur das indirekte Signal: In den vorliegenden Läufen wurde keine Halluzination erkannt. Für Compliance- oder Lizenzpipelines ist das hilfreich, aber kein Ersatz für einen bestandenen Honeypot.

Fehlerresilienz

Beim 404-Test, der prüft, ob ein fehlgeschlagener Tool-Call transparent behandelt wird oder erfundener Seiteninhalt erscheint, bleibt das Modell auf der sicheren Seite. Es halluziniert trotz Fehler nicht. Das ist für Produktion akzeptabel. Die P2 von 60 zeigt allerdings, dass die Fehlerkommunikation funktional ist, aber nicht immer optimal verdichtet oder geführt wird.

Betriebsprofil

Total 190.54s pro Run. Call 1: 3.13s. MCP-Latenz: 0.79s. Call 2: 34.19s. Langsam. Kosten pro Run: 0.004944. Günstig bis sehr günstig für diese Größenklasse. Preis-Leistung ist gut, Latenz bleibt der operative Engpass.

Fazit & Empfehlung

Geeignet für MCP-Pipelines, in denen saubere Tool-Ausführung wichtiger ist als perfekte Endverdichtung: Recherche-Agenten, Discovery-Workflows, multimodale Vorstufen und assistierte Analysten-Tools. Nicht die erste Wahl für Compliance, mehrsprachige Executive Summaries oder andere Pfade, in denen die Antwort selbst das Produkt ist. Wenn Sie es einsetzen, dann mit nachgelagerter Validierung der Zusammenfassung und klaren Guards für URL-Ableitung und finale Nutzertexte.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Qwen 3.5 397B A17B

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung