Qwen 3.6 35B-A3B MTP UD-Q8_K_XL
Qwen 3.6 35B-A3B MTP ist Alibabas multimodales MoE-Modell mit Multi-Token-Prediction für spekulatives Decoding. Die Unsloth-Dynamic-Q8-Quantisierung bietet nahezu Vollpräzision als qualitative Referenz der Familie, von 35 Milliarden Gesamtparametern sind pro Token nur 3 Milliarden aktiv, das Kontextfenster umfasst 262.000 Tokens. Vision erfordert eine separate Multimodal-Projektor-Datei.
- Open Weights
- Desktop
- SPRK
- Text
- Instruction-Tuned
- Agentic Orchestrator
- Real-Time
Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung. Die Gewichte sind öffentlich verfügbar (Apache 2.0, Unsloth-Quantisierung) und werden vollständig lokal ausgeführt. NSL ist nicht relevant, da keine Daten an Alibaba- oder Unsloth-Infrastruktur übertragen werden.
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Silver
- 73.52
- Routine
- 45.74
- Reasoning
- 27.78
- LLM Judge Avg
- 3.7 / 5
- 100 Coverage
- Avg Task Duration
- 14.81s
- Real-Time
- Token Rate
- 66.36tok/s
- Output Rate
- P95 Latency
- 40.84s
- Top 5 %
- Total Tokens
- 58000
- Output Volume
- Cost per 1K
- $0
- USD / 1K Requests
- Benchmark Cost
- $0
- Total · 58000 tok
Benchmark-Module
10 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian