Qwen 3.5 35B-A3B Q4_K_XL (GGUF)

Qwen 3.5 35B-A3B ist ein offenes multimodales Qwen-Modell mit 35B Gesamtparametern, von denen 3B aktiv sind, nativen Text-/Bildeingaben und bis zu 262K Kontext. Diese Karte beschreibt die Q4_K_XL-GGUF-Variante: eine lokal deploybare Quantisierung mit geringerem Speicherbedarf und etwas mehr Qualitätsverlust als höhere Präzisionen. Damit eignet sie sich besonders für Workstation-Setups, die offene Weights, Tool-Use und lange Kontexte kombinieren möchten.

Alibaba Version 3.5 Q4_K_XL GGUF Kommerzielle Nutzung erlaubt MoE 35 B (3 B aktiv) 262 K Context 06/2025 $0 / $0 per 1M

  • Open Weights
  • Workstation
  • LCL
  • Thinking-Optional
  • Multimodal
  • Long-Context
  • Real-Time

Sovereign Risk: MEDIUM Die Gewichte werden offen durch das Qwen-Team veröffentlicht; Risiken ergeben sich primär aus Herkunft und Compliance-Kontext, nicht aus intransparenter Distribution.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
74.75
Routine
47.65
Reasoning
27.1

Rank #14

LLM Judge Avg
3.71
100% Coverage
Avg Task Duration
14.08
Real-Time
Token Rate
69.86
Output Rate
P95 Latency
40.17
Top 5 %
Total Tokens
55.3K
Output Volume
Cost per 1K
$0
USD / 1K Requests
Benchmark Cost
$0
Total · 55.3K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Qwen 3.5 35B-A3B Q4_K_XL (GGUF) Bestes Modell Ø Alle Modelle
Code Quality 72.5
CLI Benchmark 91.67
Logical Reasoning 70.18
UX Writing 74.35
Documentation 70.58
Content Transform. 76.4
Cultural Intelligence 75.6
Benchmark Cost $0

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil