Qwen 3.6 Plus

Qwen 3.6 Plus ist Alibabas proprietäres Flagship-Modell der Qwen-3.6-Serie mit hybrider MoE-Architektur und Schwerpunkt auf agentisches Coding und multimodale Verarbeitung. Mit einem Kontextfenster von einer Million Tokens, konfigurierbarem Thinking-Modus und nativen Agentic-Fähigkeiten richtet sich das Modell an anspruchsvolle produktive Anwendungen. Ausschliesslich über Cloud-APIs verfügbar, die chinesische Jurisdiktion ist zu beachten.

Alibaba Version 3.6 Plus Kommerzielle Nutzung erlaubt MoE 1000 K Context 02/2026 $0.325 / $1.95 per 1M

  • Proprietär
  • Frontier
  • OR
  • Text
  • Vision
  • Video
  • Instruction-Tuned
  • Agentic Orchestrator
  • Batch

Sovereign Risk: HIGH Das Modell wird ausschließlich über die Alibaba Cloud API betrieben. Daten, die über die API übertragen werden, unterliegen dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Lokales Deployment ist nicht möglich – kein Gewichts-Download verfügbar.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
6.58
First Request
MCP
0.44
Protocol Latency
Synthesis
25.42
Response Generation
Total
194.67
Sum of All Phases
Token
7198
Input + Output
Cost
$0.0053
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Halluzinationslage unkritisch ist, aber die Tool-Calls nicht durchgehend valide sind und das Gesamtbild mit 59.38 nur für überwachte Tool-Pipelines trägt.

Tool-Execution-Profil

Qwen 3.6 Plus zeigt brauchbare Ausführung, aber keine verlässliche Werkzeugintelligenz. Beim Test Web Search & Tool Selection, der prüft ob das Modell ohne Hinweis erkennt, dass statt fetch erst web_search nötig ist, fällt es mit P1 35 klar ab. Beim URL-Construction-Test, der die Ableitung einer korrekten Ziel-URL und anschließendes Fetch prüft, arbeitet es mit P1 80 deutlich besser. Das spricht gegen flexible Tool-Wahl und eher für ein Muster: Wenn die Zielstruktur schon klar ist, liefert es solide. Wenn erst entschieden werden muss, welches Werkzeug den Informationsraum richtig öffnet, wird es unsicher. Dass ein Retry erforderlich war und der Tool-Call nicht valide war, wirkt hier eher wie ein Protokoll- und Orchestrierungsproblem als ein reines Wissensdefizit. Für MCP heißt das: nicht blind an autonome Tool-Ketten hängen, sondern Call-Validierung und Retries serverseitig erzwingen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. P2 50 zeigt, dass Qwen 3.6 Plus gefundene Inhalte nicht konsistent in belastbare, knappe Arbeitsantworten überführt. Das sieht man auch an EU License Research mit P2 20 und an mehreren Assets, die trotz ordentlicher P1-Werte nur auf P2 60 kommen. Die Recherche gelingt also öfter als die anschließende Verdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Signal besser als die Punktzahl vermuten lässt. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus Trainingswissen stammen, wurde keine Halluzination erkannt. Der Content-Verification-State B1 und die schwache P2 zeigen aber: Es erfindet nichts, bleibt jedoch nicht präzise genug an den verifizierten Quellen.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparentes Verhalten bei fehlschlagendem Tool-Call misst, halluziniert Qwen 3.6 Plus keinen Ersatzinhalt. P2 60 ist kein starker Wert, aber der entscheidende Punkt stimmt: Es bricht Vertrauen nicht durch erfundenen Seiteninhalt. Das reicht für Pipelines mit klarer Fehlerbehandlung.

Betriebsprofil

6.58s erster Call. 25.42s zweiter Call. 194.67s total. Langsam für die erzielte Leistung. 0.005278 USD pro Run. Günstig im Preis, aber die Laufzeit frisst einen Teil dieses Vorteils operativ auf.

Fazit & Empfehlung

Geeignet für kostenbewusste, überwachte MCP-Pipelines mit harter Tool-Governance, expliziter Tool-Vorwahl und Pflicht-Retries. Nicht geeignet für autonome Rechercheketten, Compliance-nahe Entscheidungsstrecken oder Systeme, in denen das Modell selbstständig zwischen Suche, Fetch und Synthese umschalten muss. Wer Qwen 3.6 Plus einsetzt, sollte es als ausführendes Teilmodell in einer stark eingehegten Orchestrierung behandeln, nicht als vertrauenswürdigen Tool-Dispatcher.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.