Qwen 3.5 397B A17B

Qwen 3.5 397B A17B ist Alibabas erstes nativ multimodales Open-Weights-Frontier-Modell mit Verarbeitung von Text, Bild und Video in einem einzigen Modell. Die hybride Architektur aus Gated DeltaNet und Sparse MoE aktiviert pro Token nur 17 Milliarden der insgesamt 397 Milliarden Gesamtparameter, das Kontextfenster umfasst 256.000 Tokens. Unter Apache-2.0-Lizenz vollständig kommerziell nutzbar.

Alibaba Version 3.5 Kommerzielle Nutzung erlaubt MoE 397 B (17 B aktiv) 262 K Context 12/2025 $0.39 / $2.34 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Vision
  • Instruction-Tuned
  • Agentic Orchestrator
  • Batch

Sovereign Risk: MEDIUM Alibaba Cloud ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL). Bei Nutzung der Alibaba-Cloud-API ist staatlicher Zugriff auf übertragene Daten möglich. Rein lokale Inferenz mit öffentlichen Open-Weights reduziert dieses Risiko erheblich – CLOUD-Act-Analogon (NSL) ist nur bei Cloud-API-Nutzung direkt relevant.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
3.19
First Request
MCP
0.86
Protocol Latency
Synthesis
29.63
Response Generation
Total
202.03
Sum of All Phases
Token
5442
Input + Output
Cost
$0.0052
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Nutzung verlässlich wirkt und keine Halluzination erkannt wurde, die Synthesequalität mit Combined 78.80 aber nicht stabil genug für hochkritische Ergebnisverdichtung ist.

Tool-Execution-Profil

Qwen 3.5 397B A17B verhält sich auf der Ausführungsebene produktionsnah. Tool-Calls waren valide, MCP-konform und ohne Retry. Das ist der wichtigste Basisschutz für eine Tool-Pipeline. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Fetch prüft, erkennt das Modell die passende Werkzeugklasse sicher. Das spricht gegen ein starres Call-Muster und für echte Werkzeugwahl. Beim URL-Construction-Test konstruiert es die Ziel-URL brauchbar, aber nicht präzise genug für deterministische Pipelines mit enger Fehlertoleranz. Die Ausführung ist damit stark, aber nicht blind vertrauenswürdig, wenn der Pfad aus Modellwissen abgeleitet werden muss.

Wichtig zur Einordnung: Das Modell ist primär ein Vision-Language-System. Die hier sichtbare Text-Tool-Kompetenz ist deshalb belastbar, bildet aber nicht seine volle Produktfläche ab.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Solide, aber nicht auf Frontier-Niveau. P2 von 68 zeigt, dass es gefundene Informationen oft korrekt zusammenführt, dabei aber an Präzision verliert. Das sieht man besonders im Test Multilingual Search & Synthesis, der sprachübergreifende Recherche und deutsche Zusammenfassung prüft: Die Suche gelingt, die Verdichtung bleibt deutlich hinter der Ausführung zurück.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Dazu gibt es im Honeypot EU License Research keine Daten. Positiv ist nur das indirekte Signal: In den vorliegenden Läufen wurde keine Halluzination erkannt. Für Compliance- oder Lizenzpipelines ist das hilfreich, aber kein Ersatz für einen bestandenen Honeypot.

Fehlerresilienz

Beim 404-Test, der prüft, ob ein fehlgeschlagener Tool-Call transparent behandelt wird oder erfundener Seiteninhalt erscheint, bleibt das Modell auf der sicheren Seite. Es halluziniert trotz Fehler nicht. Das ist für Produktion akzeptabel. Die P2 von 60 zeigt allerdings, dass die Fehlerkommunikation funktional ist, aber nicht immer optimal verdichtet oder geführt wird.

Betriebsprofil

Total 190.54s pro Run. Call 1: 3.13s. MCP-Latenz: 0.79s. Call 2: 34.19s. Langsam. Kosten pro Run: 0.004944. Günstig bis sehr günstig für diese Größenklasse. Preis-Leistung ist gut, Latenz bleibt der operative Engpass.

Fazit & Empfehlung

Geeignet für MCP-Pipelines, in denen saubere Tool-Ausführung wichtiger ist als perfekte Endverdichtung: Recherche-Agenten, Discovery-Workflows, multimodale Vorstufen und assistierte Analysten-Tools. Nicht die erste Wahl für Compliance, mehrsprachige Executive Summaries oder andere Pfade, in denen die Antwort selbst das Produkt ist. Wenn Sie es einsetzen, dann mit nachgelagerter Validierung der Zusammenfassung und klaren Guards für URL-Ableitung und finale Nutzertexte.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.