Qwen 3 4B (Q6_K)

Vier Milliarden Parameter, Apache-2.0-Lizenz und ein optionaler Thinking-Modus: Qwen 3 4B ist für mobile Anwendungen und Edge-Setups gedacht, wo jedes Watt zählt. Lokal betreibbar unter Q6-Quantisierung, mit 128.000 Tokens Kontextfenster für ein Nano-Modell dieser Klasse grosszügig dimensioniert. Die Hersteller-Jurisdiktion China bringt bei politisch sensiblen Themen gelegentlich zensierte oder ausweichende Antworten mit sich.

Alibaba Version Q6_K Kommerzielle Nutzung erlaubt Dense 4 B (4 B aktiv) 128 K Context 09/2024 $0 / $0 per 1M

Open Weights
Nano
M4APL
Text
Real-Time

Sovereign Risk: LOW Das Modell wird lokal ohne Cloud-Verbindung betrieben; die CLOUD-Act- bzw. Datentransfer-Risiken aus einer Cloud-Nutzung greifen hier nicht. Die Provenance bleibt durch die Community-Quantisierung zwar nachvollziehbar, aber das operative Risiko ist bei reiner lokaler Inferenz niedrig.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Bronze: 59.42

Routine: 37.2
Reasoning: 22.22

Rank #73

LLM Judge Avg: 2.84; 100 Coverage

Avg Task Duration: 9.95; Real-Time

Token Rate: 73.98; Output Rate

P95 Latency: 24.76; Top 5 %

Total Tokens: 43500; Output Volume

Cost per 1K: $0; USD / 1K Requests

Benchmark Cost: $0; Total · 43500 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Qwen 3 4B (Q6_K) Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Qwen 3 4B (Q6_K)

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil