Qwen 3.6 Plus

Qwen 3.6 Plus ist Alibabas proprietäres Flagship-Modell der Qwen-3.6-Serie mit hybrider MoE-Architektur und Schwerpunkt auf agentisches Coding und multimodale Verarbeitung. Mit einem Kontextfenster von einer Million Tokens, konfigurierbarem Thinking-Modus und nativen Agentic-Fähigkeiten richtet sich das Modell an anspruchsvolle produktive Anwendungen. Ausschliesslich über Cloud-APIs verfügbar, die chinesische Jurisdiktion ist zu beachten.

Alibaba Version 3.6 Plus Kommerzielle Nutzung erlaubt MoE 1000 K Context 02/2026 $0.325 / $1.95 per 1M

Proprietär
Frontier
OR
Text
Vision
Video
Instruction-Tuned
Agentic Orchestrator
Batch

Sovereign Risk: HIGH Das Modell wird ausschließlich über die Alibaba Cloud API betrieben. Daten, die über die API übertragen werden, unterliegen dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Lokales Deployment ist nicht möglich – kein Gewichts-Download verfügbar.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	35	20	26
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	35	40	37.3
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

37.3

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 6.58; First Request

MCP: 0.44; Protocol Latency

Synthesis: 25.42; Response Generation

Total: 194.67; Sum of All Phases

Token: 7198; Input + Output

Cost: $0.0053; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Halluzinationslage unkritisch ist, aber die Tool-Calls nicht durchgehend valide sind und das Gesamtbild mit 59.38 nur für überwachte Tool-Pipelines trägt.

Tool-Execution-Profil

Qwen 3.6 Plus zeigt brauchbare Ausführung, aber keine verlässliche Werkzeugintelligenz. Beim Test Web Search & Tool Selection, der prüft ob das Modell ohne Hinweis erkennt, dass statt fetch erst web_search nötig ist, fällt es mit P1 35 klar ab. Beim URL-Construction-Test, der die Ableitung einer korrekten Ziel-URL und anschließendes Fetch prüft, arbeitet es mit P1 80 deutlich besser. Das spricht gegen flexible Tool-Wahl und eher für ein Muster: Wenn die Zielstruktur schon klar ist, liefert es solide. Wenn erst entschieden werden muss, welches Werkzeug den Informationsraum richtig öffnet, wird es unsicher. Dass ein Retry erforderlich war und der Tool-Call nicht valide war, wirkt hier eher wie ein Protokoll- und Orchestrierungsproblem als ein reines Wissensdefizit. Für MCP heißt das: nicht blind an autonome Tool-Ketten hängen, sondern Call-Validierung und Retries serverseitig erzwingen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. P2 50 zeigt, dass Qwen 3.6 Plus gefundene Inhalte nicht konsistent in belastbare, knappe Arbeitsantworten überführt. Das sieht man auch an EU License Research mit P2 20 und an mehreren Assets, die trotz ordentlicher P1-Werte nur auf P2 60 kommen. Die Recherche gelingt also öfter als die anschließende Verdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Signal besser als die Punktzahl vermuten lässt. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus Trainingswissen stammen, wurde keine Halluzination erkannt. Der Content-Verification-State B1 und die schwache P2 zeigen aber: Es erfindet nichts, bleibt jedoch nicht präzise genug an den verifizierten Quellen.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparentes Verhalten bei fehlschlagendem Tool-Call misst, halluziniert Qwen 3.6 Plus keinen Ersatzinhalt. P2 60 ist kein starker Wert, aber der entscheidende Punkt stimmt: Es bricht Vertrauen nicht durch erfundenen Seiteninhalt. Das reicht für Pipelines mit klarer Fehlerbehandlung.

Betriebsprofil

6.58s erster Call. 25.42s zweiter Call. 194.67s total. Langsam für die erzielte Leistung. 0.005278 USD pro Run. Günstig im Preis, aber die Laufzeit frisst einen Teil dieses Vorteils operativ auf.

Fazit & Empfehlung

Geeignet für kostenbewusste, überwachte MCP-Pipelines mit harter Tool-Governance, expliziter Tool-Vorwahl und Pflicht-Retries. Nicht geeignet für autonome Rechercheketten, Compliance-nahe Entscheidungsstrecken oder Systeme, in denen das Modell selbstständig zwischen Suche, Fetch und Synthese umschalten muss. Wer Qwen 3.6 Plus einsetzt, sollte es als ausführendes Teilmodell in einer stark eingehegten Orchestrierung behandeln, nicht als vertrauenswürdigen Tool-Dispatcher.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Qwen 3.6 Plus

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung