Qwen 3 4B (llama.cpp, Q6_K)

Qwen 3 4B ist ein kompaktes Open-Weights-Modell von Alibaba (China) mit optionalem Thinking-Modus (Chain-of-Thought an-/abschaltbar). Läuft hier als Q6_K-GGUF via llama.cpp. Q6_K (6-Bit-K-Quant) gilt als nahezu verlustfrei und wird von der Community als sehr gute Wahl für maximale Qualität im kompakten Format bewertet.

Alibaba Version Q6_K (GGUF) Kommerzielle Nutzung erlaubt Dense 4 B 128 K Context 09/2024 $0 / $0 per 1M

Open Weights
Nano
LCL
General
Thinking-Optional
Real-Time

Sovereign Risk: HIGH Alibaba Cloud (Tongyi Qwen-Team) ist ein chinesisches Unternehmen und unterliegt dem chinesischen National Security Law (NSL). Das BSI hat im Februar 2025 vor chinesischen KI-Cloud-Diensten gewarnt (BSI-Referenz: Warnung DeepSeek, 04.02.2025); bei lokalem Betrieb der Open-Weights-Variante ohne Datenübertragung nach China ist das cloud-spezifische Risikoszenario reduziert.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Bronze: 59.84

Routine: 37.47
Reasoning: 22.37

Rank #84

LLM Judge Avg: 2.9; 100% Coverage

Avg Task Duration: 9.49; Real-Time

Token Rate: 75.8; Output Rate

P95 Latency: 23.43; Top 5 %

Total Tokens: 38.6K; Output Volume

Cost per 1K: $0; USD / 1K Requests

Benchmark Cost: $0; Total · 38.6K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Qwen 3 4B (llama.cpp, Q6_K) Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Qwen 3 4B (llama.cpp, Q6_K)

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil