Qwen 3.6 35B-A3B MTP UD-Q8_K_XL

Qwen 3.6 35B-A3B MTP ist Alibabas multimodales MoE-Modell mit Multi-Token-Prediction für spekulatives Decoding. Die Unsloth-Dynamic-Q8-Quantisierung bietet nahezu Vollpräzision als qualitative Referenz der Familie, von 35 Milliarden Gesamtparametern sind pro Token nur 3 Milliarden aktiv, das Kontextfenster umfasst 262.000 Tokens. Vision erfordert eine separate Multimodal-Projektor-Datei.

Alibaba Version 3.6-MTP Kommerzielle Nutzung erlaubt MoE 35 B (3 B aktiv) 262 K Context 06/2025 $0 / $0 per 1M

  • Open Weights
  • Desktop
  • SPRK
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Real-Time

Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung. Die Gewichte sind öffentlich verfügbar (Apache 2.0, Unsloth-Quantisierung) und werden vollständig lokal ausgeführt. NSL ist nicht relevant, da keine Daten an Alibaba- oder Unsloth-Infrastruktur übertragen werden.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
73.52
Routine
45.74
Reasoning
27.78

Rank #31

LLM Judge Avg
3.7
100 Coverage
Avg Task Duration
14.81
Real-Time
Token Rate
66.36
Output Rate
P95 Latency
40.84
Top 5 %
Total Tokens
58000
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 58000 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Qwen 3.6 35B-A3B MTP UD-Q8_K_XL Bestes Modell Ø Alle Modelle
Code Quality 71.08
CLI Benchmark 84.34
Logical Reasoning 76.5
UX Writing 73.11
Documentation 77.12
Content Transform. 70.07
Cultural Intelligence 67.84
Synthesis Quality 63.68
Tool Execution 68.33
ToolUse Score 65.71
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil