Qwen 3.6 35B-A3B MTP UD-Q8_K_XL

Qwen 3.6 35B-A3B MTP ist Alibabas multimodales MoE-Modell mit Multi-Token-Prediction für spekulatives Decoding. Die Unsloth-Dynamic-Q8-Quantisierung bietet nahezu Vollpräzision als qualitative Referenz der Familie, von 35 Milliarden Gesamtparametern sind pro Token nur 3 Milliarden aktiv, das Kontextfenster umfasst 262.000 Tokens. Vision erfordert eine separate Multimodal-Projektor-Datei.

Alibaba Version 3.6-MTP Kommerzielle Nutzung erlaubt MoE 35 B (3 B aktiv) 262 K Context 06/2025 $0 / $0 per 1M

Open Weights
Desktop
SPRK
Text
Instruction-Tuned
Agentic Orchestrator
Real-Time

Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung. Die Gewichte sind öffentlich verfügbar (Apache 2.0, Unsloth-Quantisierung) und werden vollständig lokal ausgeführt. NSL ist nicht relevant, da keine Daten an Alibaba- oder Unsloth-Infrastruktur übertragen werden.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	35	20	26
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	35	40	37.3
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	82.1	91

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

37.3

URL Construction & Fetch

Multilingual Search & Synthesis

100

82.1

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.17; First Request

MCP: 1.37; Protocol Latency

Synthesis: 6.36; Response Generation

Total: 59.43; Sum of All Phases

Token: 8166; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil das Modell trotz brauchbarer Gesamtleistung keine verlässlich validen Tool-Calls liefert und bei werkzeugabhängigen Aufgaben zu oft die falsche Zugriffsstrategie wählt.

Tool-Execution-Profil

Das Profil ist gespalten. Wenn der Pfad klar ist, arbeitet das Modell solide. Beim HTTP Fetch & Extract extrahiert es sauber, und beim URL-Construction-Test, der prüft ob es eine Ziel-URL aus Vorwissen ableitet und dann korrekt per Fetch abruft, liegt es mit P1 80 auf produktiv nutzbarem Niveau. Auch Multilingual Search & Synthesis zeigt, dass die Ausführung über Sprachgrenzen hinweg strukturiert bleibt.

Das Kernproblem ist die Werkzeugwahl. Beim Web-Search-&-Tool-Selection-Test, der ohne expliziten Hinweis zwischen web_search und fetch unterscheiden lässt, fällt es mit P1 35 deutlich ab. Das spricht nicht für echte Tool-Intelligenz, sondern für ein Muster: Das Modell kann bekannte oder direkt ableitbare URLs bedienen, erkennt aber dynamische Recherchebedarfe nicht zuverlässig. Dass der Tool-Call insgesamt als nicht valide gewertet wurde, ist für MCP-Pipelines relevant. Das Risiko liegt nicht in einzelnen Syntaxfehlern, sondern in einem schwachen Protokollverständnis an der Entscheidungskante zwischen Suche und Abruf.

Synthesetreue

Wie gut verdichtet es? Die Verdichtungsqualität ist brauchbar, aber nicht stabil genug für hochwertige Rechercheketten. P2 63.68 bedeutet: Solide Zusammenfassungen aus vorhandenem Tool-Output, gute Extraktion bei klaren Quellen, starke Leistung bei mehrsprachiger Recherche. Sobald die Aufgabe aber Quellenbewertung oder vorsichtige Einordnung verlangt, fällt die Qualität sichtbar ab.

Bleibt es im Tool-Ergebnis? Hier ist das Vertrauenssignal gemischt. Im EU-License-Research-Honeypot, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus dem Training kommen, erreicht das Modell nur P2 20. Es wurde zwar keine Halluzination erkannt, aber es bleibt nicht verlässlich an der aktuellen Quellenlage. Für Compliance-nahe oder regulatorische Pipelines ist das ein klares Warnsignal: keine freie Freigabe ohne harte Quellenerzwingung und Output-Prüfung.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit einem fehlgeschlagenen Tool-Aufruf misst, reagiert das Modell akzeptabel. P2 80 und keine halluzinierten Ersatzinhalte zeigen: Wenn ein Tool scheitert, erfindet es nicht automatisch Seiteninhalt. Das ist ein produktionsrelevanter Pluspunkt, weil Fehlerkommunikation die Pipeline intakt hält.

Betriebsprofil

Total 59.43s. Call 1 2.17s, MCP-Latenz 1.37s, Call 2 6.36s. Lokal betrieben, daher direkte Run-Kosten gering. Für die gebotene Leistung eher langsam.

Fazit & Empfehlung

Geeignet für lokale MCP-Pipelines mit klaren, vorstrukturierten Fetch-Aufgaben, Extraktion aus bekannten URLs und mehrsprachiger Verdichtung unter Guardrails. Nicht geeignet für offene Web-Recherche, Compliance-Workflows oder agentische Orchestrierung, in denen das Modell selbst das richtige Tool wählen und aktuelle Quellen strikt priorisieren muss. Wenn Sie es einsetzen, dann mit erzwungener Tool-Auswahl, Schema-Validierung und nachgelagerter Quellenkontrolle.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Qwen 3.6 35B-A3B MTP UD-Q8_K_XL

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung