Qwen 3.6 35B-A3B MTP UD-Q8_K_XL

Qwen 3.6 35B-A3B MTP ist Alibabas multimodales MoE-Modell mit Multi-Token-Prediction für spekulatives Decoding. Die Unsloth-Dynamic-Q8-Quantisierung bietet nahezu Vollpräzision als qualitative Referenz der Familie, von 35 Milliarden Gesamtparametern sind pro Token nur 3 Milliarden aktiv, das Kontextfenster umfasst 262.000 Tokens. Vision erfordert eine separate Multimodal-Projektor-Datei.

Alibaba Version 3.6-MTP Kommerzielle Nutzung erlaubt MoE 35 B (3 B aktiv) 262 K Context 06/2025 $0 / $0 per 1M

  • Open Weights
  • Desktop
  • SPRK
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Real-Time

Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung. Die Gewichte sind öffentlich verfügbar (Apache 2.0, Unsloth-Quantisierung) und werden vollständig lokal ausgeführt. NSL ist nicht relevant, da keine Daten an Alibaba- oder Unsloth-Infrastruktur übertragen werden.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.17
First Request
MCP
1.37
Protocol Latency
Synthesis
6.36
Response Generation
Total
59.43
Sum of All Phases
Token
8166
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil das Modell trotz brauchbarer Gesamtleistung keine verlässlich validen Tool-Calls liefert und bei werkzeugabhängigen Aufgaben zu oft die falsche Zugriffsstrategie wählt.

Tool-Execution-Profil

Das Profil ist gespalten. Wenn der Pfad klar ist, arbeitet das Modell solide. Beim HTTP Fetch & Extract extrahiert es sauber, und beim URL-Construction-Test, der prüft ob es eine Ziel-URL aus Vorwissen ableitet und dann korrekt per Fetch abruft, liegt es mit P1 80 auf produktiv nutzbarem Niveau. Auch Multilingual Search & Synthesis zeigt, dass die Ausführung über Sprachgrenzen hinweg strukturiert bleibt.

Das Kernproblem ist die Werkzeugwahl. Beim Web-Search-&-Tool-Selection-Test, der ohne expliziten Hinweis zwischen web_search und fetch unterscheiden lässt, fällt es mit P1 35 deutlich ab. Das spricht nicht für echte Tool-Intelligenz, sondern für ein Muster: Das Modell kann bekannte oder direkt ableitbare URLs bedienen, erkennt aber dynamische Recherchebedarfe nicht zuverlässig. Dass der Tool-Call insgesamt als nicht valide gewertet wurde, ist für MCP-Pipelines relevant. Das Risiko liegt nicht in einzelnen Syntaxfehlern, sondern in einem schwachen Protokollverständnis an der Entscheidungskante zwischen Suche und Abruf.

Synthesetreue

Wie gut verdichtet es? Die Verdichtungsqualität ist brauchbar, aber nicht stabil genug für hochwertige Rechercheketten. P2 63.68 bedeutet: Solide Zusammenfassungen aus vorhandenem Tool-Output, gute Extraktion bei klaren Quellen, starke Leistung bei mehrsprachiger Recherche. Sobald die Aufgabe aber Quellenbewertung oder vorsichtige Einordnung verlangt, fällt die Qualität sichtbar ab.

Bleibt es im Tool-Ergebnis? Hier ist das Vertrauenssignal gemischt. Im EU-License-Research-Honeypot, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus dem Training kommen, erreicht das Modell nur P2 20. Es wurde zwar keine Halluzination erkannt, aber es bleibt nicht verlässlich an der aktuellen Quellenlage. Für Compliance-nahe oder regulatorische Pipelines ist das ein klares Warnsignal: keine freie Freigabe ohne harte Quellenerzwingung und Output-Prüfung.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit einem fehlgeschlagenen Tool-Aufruf misst, reagiert das Modell akzeptabel. P2 80 und keine halluzinierten Ersatzinhalte zeigen: Wenn ein Tool scheitert, erfindet es nicht automatisch Seiteninhalt. Das ist ein produktionsrelevanter Pluspunkt, weil Fehlerkommunikation die Pipeline intakt hält.

Betriebsprofil

Total 59.43s. Call 1 2.17s, MCP-Latenz 1.37s, Call 2 6.36s. Lokal betrieben, daher direkte Run-Kosten gering. Für die gebotene Leistung eher langsam.

Fazit & Empfehlung

Geeignet für lokale MCP-Pipelines mit klaren, vorstrukturierten Fetch-Aufgaben, Extraktion aus bekannten URLs und mehrsprachiger Verdichtung unter Guardrails. Nicht geeignet für offene Web-Recherche, Compliance-Workflows oder agentische Orchestrierung, in denen das Modell selbst das richtige Tool wählen und aktuelle Quellen strikt priorisieren muss. Wenn Sie es einsetzen, dann mit erzwungener Tool-Auswahl, Schema-Validierung und nachgelagerter Quellenkontrolle.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.